Aggregator Classe
Define uma agregação em relação a colunas especificadas identificadas com chaves de junção.
- Herança
-
builtins.objectAggregator
Construtor
Aggregator()
Comentários
Os agregadores geralmente não são instanciados diretamente. Em vez disso, especifique o tipo de agregador ao usar um enriquecedor, como o objeto HolidayEnricher.
Agregadores derivados incluem AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop.
O método process(env, customer_data, public_data, join_keys, debug)
executa a agregação.
Métodos
get_log_property |
Obtenha tupla de propriedade de log, Nenhum se não houver nenhuma propriedade. |
process |
customer_data de junção à esquerda com public_data em join_keys. Remover todas as colunas em join_keys e todas as colunas que estão na lista de to_be_cleaned_up_column_names depois. |
process_public_dataset |
Executar agregação em colunas de dados públicas especificadas. |
get_log_property
Obtenha tupla de propriedade de log, Nenhum se não houver nenhuma propriedade.
get_log_property()
process
customer_data de junção à esquerda com public_data em join_keys.
Remover todas as colunas em join_keys e todas as colunas que estão na lista de to_be_cleaned_up_column_names depois.
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
Parâmetros
Nome | Description |
---|---|
env
Obrigatório
|
O ambiente de runtime. |
customer_data
Obrigatório
|
Os dados do cliente. |
public_data
Obrigatório
|
Os dados públicos. |
join_keys
Obrigatório
|
Uma lista de pares de chaves de junção. |
debug
Obrigatório
|
Indica se informações de depuração devem ser impressos. |
Retornos
Tipo | Description |
---|---|
Uma tupla de (uma nova instância da classe CustomerData, instância inalterada de PublicData, uma nova instância unida de classe CustomerData, chaves de junção (lista de tupla)) |
process_public_dataset
Executar agregação em colunas de dados públicas especificadas.
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
Parâmetros
Nome | Description |
---|---|
env
Obrigatório
|
O ambiente de runtime. |
_public_dataset
Obrigatório
|
Um DataFrame do conjunto de dados público. |
cols
|
Uma lista de nomes de coluna a serem recuperados. Valor padrão: None
|
join_keys
|
Uma lista de chaves de junção a serem usadas. Valor padrão: []
|
Retornos
Tipo | Description |
---|---|
Um novo DataFrame do conjunto de dados público. |
Atributos
should_direct_join
should_direct_join = True