Aggregator Classe

Referência

Define uma agregação em relação a colunas especificadas identificadas com chaves de junção.

Herança: builtins.object

Aggregator

Construtor

Aggregator()

Comentários

Os agregadores geralmente não são instanciados diretamente. Em vez disso, especifique o tipo de agregador ao usar um enriquecedor, como o objeto HolidayEnricher.

Agregadores derivados incluem AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop.

O método process(env, customer_data, public_data, join_keys, debug) executa a agregação.

Métodos

get_log_property

Obtenha tupla de propriedade de log, Nenhum se não houver nenhuma propriedade.

process

customer_data de junção à esquerda com public_data em join_keys.

Remover todas as colunas em join_keys e todas as colunas que estão na lista de to_be_cleaned_up_column_names depois.

process_public_dataset

Executar agregação em colunas de dados públicas especificadas.

get_log_property

Obtenha tupla de propriedade de log, Nenhum se não houver nenhuma propriedade.

get_log_property()

process

customer_data de junção à esquerda com public_data em join_keys.

Remover todas as colunas em join_keys e todas as colunas que estão na lista de to_be_cleaned_up_column_names depois.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parâmetros

Nome	Description
env Obrigatório	RuntimeEnv O ambiente de runtime.
customer_data Obrigatório	CustomerData Os dados do cliente.
public_data Obrigatório	PublicData Os dados públicos.
join_keys Obrigatório	list[tuple] Uma lista de pares de chaves de junção.
debug Obrigatório	bool Indica se informações de depuração devem ser impressos.

Retornos

Tipo	Description
tuple[ CustomerData, PublicData, CustomerData, list[tuple([str, str])]	Uma tupla de (uma nova instância da classe CustomerData, instância inalterada de PublicData, uma nova instância unida de classe CustomerData, chaves de junção (lista de tupla))

process_public_dataset

Executar agregação em colunas de dados públicas especificadas.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parâmetros

Nome	Description
env Obrigatório	RuntimeEnv O ambiente de runtime.
_public_dataset Obrigatório	DataFrame Um DataFrame do conjunto de dados público.
cols	list Uma lista de nomes de coluna a serem recuperados. Valor padrão: None
join_keys	list Uma lista de chaves de junção a serem usadas. Valor padrão: []

Retornos

Tipo	Description
object	Um novo DataFrame do conjunto de dados público.

Atributos

should_direct_join

should_direct_join = True

Compartilhar via

Aggregator Classe

Construtor

Comentários

Métodos

get_log_property

process

Parâmetros

Retornos

process_public_dataset

Parâmetros

Retornos

Atributos

should_direct_join

Comentários

Recursos adicionais