Noções básicas sobre entidades de nível superior no repositório de recursos gerenciados
Este documento descreve as entidades de nível superior no repositório de recursos gerenciados.
Para obter mais informações sobre o repositório de recursos gerenciados, consulte O que é o repositório de recursos gerenciados?
Loja de recursos
Você pode criar e gerenciar conjuntos de recursos por meio de um repositório de recursos. Os conjuntos de recursos são uma coleção de recursos. Opcionalmente, você pode associar um repositório de materialização (conexão de armazenamento offline) a um repositório de recursos, para pré-calcular e persistir regularmente os recursos. Ele pode tornar a recuperação de recursos durante o treinamento ou inferência mais rápida e confiável.
Para obter mais informações sobre a configuração, consulte Esquema YAML do repositório de recursos CLI (v2)
Entidades
As entidades encapsulam as colunas de índice para entidades lógicas em uma empresa. Exemplos de entidades incluem entidade de conta, entidade de cliente, etc. As entidades ajudam a impor, como prática recomendada, o uso das mesmas definições de coluna de índice nos conjuntos de recursos que usam as mesmas entidades lógicas.
Normalmente, as entidades são criadas uma vez e, em seguida, reutilizadas em conjuntos de recursos. As entidades são versionadas.
Para obter mais informações sobre a configuração, consulte Esquema YAML da entidade de recurso CLI (v2)
Especificação e ativo do conjunto de recursos
Os conjuntos de recursos são uma coleção de recursos gerados pela aplicação de transformações nos dados do sistema de origem. Os conjuntos de recursos encapsulam uma fonte, a função de transformação e as configurações de materialização. Atualmente, suportamos o código de transformação de recursos do PySpark.
Comece criando uma especificação de conjunto de recursos. Uma especificação de conjunto de recursos é uma definição independente de um conjunto de recursos que você pode desenvolver e testar localmente.
Uma especificação de conjunto de recursos geralmente consiste nos seguintes parâmetros:
source
: Para que fonte(s) este recurso é mapeadotransformation
(opcional): A lógica de transformação, aplicada aos dados de origem, para criar recursos. No nosso caso, usamos o Spark como o cálculo suportado.- Nomes das colunas que representam o
index_columns
e otimestamp_column
: Esses nomes são necessários quando os usuários tentam unir dados de recursos com dados de observação (mais sobre isso mais tarde) materialization_settings
(opcional): Necessário para armazenar em cache os valores do recurso em um repositório de materialização para uma recuperação eficiente.
Depois de desenvolver e testar a especificação do conjunto de recursos em seu ambiente local/de desenvolvimento, você pode registrar a especificação como um ativo do conjunto de recursos no repositório de recursos. O ativo do conjunto de recursos fornece recursos gerenciados, como controle de versão e materialização.
Para obter mais informações sobre a especificação YAML do conjunto de recursos, consulte Especificação do conjunto de recursos CLI (v2) Esquema YAML
Especificação de recuperação de recursos
Uma especificação de recuperação de recursos é uma definição portátil de uma lista de recursos associada a um modelo. Ele pode ajudar a agilizar o desenvolvimento e a operacionalização do modelo de aprendizado de máquina. Uma especificação de recuperação de recursos normalmente é uma entrada para o pipeline de treinamento. Ele ajuda a gerar os dados de treinamento. Pode ser embalado com o modelo. Além disso, a etapa de inferência usa-o para procurar os recursos. Ele integra todas as fases do ciclo de vida do aprendizado de máquina. As alterações no pipeline de treinamento e inferência podem ser minimizadas à medida que você experimenta e implanta.
O uso de uma especificação de recuperação de recursos e o componente de recuperação de recursos integrado são opcionais. Você pode usar diretamente a API, get_offline_features()
se desejar.
Para obter mais informações sobre a especificação YAML de recuperação de recursos, consulte CLI (v2) feature retrieval specification YAML schema.