Aggregator Classe

Define uma agregação em relação a colunas especificadas identificadas com chaves de junção.

Herança
builtins.object
Aggregator

Construtor

Aggregator()

Comentários

Os agregadores geralmente não são instanciados diretamente. Em vez disso, especifique o tipo de agregador ao usar um enriquecedor, como o objeto HolidayEnricher.

Agregadores derivados incluem AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop.

O método process(env, customer_data, public_data, join_keys, debug) executa a agregação.

Métodos

get_log_property

Obtenha tupla de propriedade de log, Nenhum se não houver nenhuma propriedade.

process

customer_data de junção à esquerda com public_data em join_keys.

Remover todas as colunas em join_keys e todas as colunas que estão na lista de to_be_cleaned_up_column_names depois.

process_public_dataset

Executar agregação em colunas de dados públicas especificadas.

get_log_property

Obtenha tupla de propriedade de log, Nenhum se não houver nenhuma propriedade.

get_log_property()

process

customer_data de junção à esquerda com public_data em join_keys.

Remover todas as colunas em join_keys e todas as colunas que estão na lista de to_be_cleaned_up_column_names depois.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parâmetros

Nome Description
env
Obrigatório

O ambiente de runtime.

customer_data
Obrigatório

Os dados do cliente.

public_data
Obrigatório

Os dados públicos.

join_keys
Obrigatório

Uma lista de pares de chaves de junção.

debug
Obrigatório

Indica se informações de depuração devem ser impressos.

Retornos

Tipo Description

Uma tupla de (uma nova instância da classe CustomerData, instância inalterada de PublicData, uma nova instância unida de classe CustomerData, chaves de junção (lista de tupla))

process_public_dataset

Executar agregação em colunas de dados públicas especificadas.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parâmetros

Nome Description
env
Obrigatório

O ambiente de runtime.

_public_dataset
Obrigatório

Um DataFrame do conjunto de dados público.

cols

Uma lista de nomes de coluna a serem recuperados.

Valor padrão: None
join_keys

Uma lista de chaves de junção a serem usadas.

Valor padrão: []

Retornos

Tipo Description

Um novo DataFrame do conjunto de dados público.

Atributos

should_direct_join

should_direct_join = True