Noções básicas sobre entidades de nível superior em repositório de recursos gerenciados

Este documento descreve as entidades de nível superior no repositório de recursos gerenciados.

Diagrama descrevendo os principais componentes do repositório de recursos gerenciados.

Para obter mais informações sobre o repositório de recursos gerenciados, consulte O que é repositório de recursos gerenciados?

Repositório de recursos

Você pode criar e gerenciar conjuntos de recursos por meio de um repositório de recursos. Os conjuntos de recursos são uma coleção de recursos. Opcionalmente, você pode associar um repositório de materialização (conexão de repositório offline) a um repositório de recursos, para pré-computar e persistir regularmente os recursos. Isso pode tornar a recuperação de recursos durante o treinamento ou a inferência mais rápida e confiável.

Para obter mais informações sobre a configuração, confira Esquema YAML do repositório de recursos da CLI (v2)

Entities

As entidades encapsulam as colunas de índice para entidades lógicas em uma empresa. Os exemplos de entidades incluem entidade de conta, entidade do cliente etc. As entidades ajudam a impor, como melhor prática, o uso das mesmas definições de coluna de índice entre os conjuntos de recursos que usam as mesmas entidades lógicas.

Normalmente, as entidades são criadas uma vez e reutilizadas em conjuntos de recursos. As entidades são versões.

Para obter mais informações sobre a configuração, confira Esquema YAML da entidade de recursos da CLI (v2)

Especificação e ativo do conjunto de recursos

Os conjuntos de recursos são uma coleção de recursos gerados pela aplicação de transformações nos dados do sistema de origem. Os conjuntos de recursos encapsulam uma origem, a função de transformação e as configurações de materialização. Atualmente, damos suporte ao código de transformação de recursos do PySpark.

Comece criando uma especificação de conjunto de recursos. Uma especificação do conjunto de recursos é uma definição de conjunto de recursos independente que você pode desenvolver e testar localmente.

Uma especificação de conjunto de recursos normalmente consiste nos seguintes parâmetros:

  • source: para quais origens esse recurso é mapeado
  • transformation (opcional): a lógica de transformação, aplicada aos dados de origem, para criar recursos. Em nosso caso, usamos o Spark como a computação com suporte.
  • Nomes das colunas que representam o index_columns e o timestamp_column: isso é necessário quando os usuários tentam unir dados de recursos com dados de observação (mais sobre isso posteriormente)
  • materialization_settings(opcional): necessário para armazenar em cache os valores de recurso em um repositório de materialização para recuperação eficiente.

Após o desenvolvimento e teste da especificação do conjunto de recursos em seu ambiente local/desenvolvimento, você pode registrar a especificação como um ativo de conjunto de recursos com o repositório de recursos. O ativo do conjunto de recursos fornece recursos gerenciados, como controle de versão e materialização.

Para obter mais informações sobre a especificação YAML do conjunto de recursos, confira Esquema YAML da especificação do conjunto de recursos da CLI (v2)

Especificação de recuperação de recursos

Uma especificação de recuperação de recursos é uma definição portátil de uma lista de recursos associada a um modelo. Ela pode ajudar a simplificar o desenvolvimento e a operacionalização do modelo de machine learning. Uma especificação de recuperação de recursos é normalmente uma entrada para o pipeline de treinamento. Ela ajuda a gerar os dados de treinamento. Ela pode ser empacotada com o modelo. Além disso, a etapa de inferência a usa para pesquisar os recursos. Ela integra todas as fases do ciclo de vida do aprendizado de máquina. As alterações no pipeline de treinamento e inferência podem ser minimizadas à medida que você experimenta e implanta.

O uso de uma especificação de recuperação de recursos e o componente de recuperação de recursos interno são opcionais. Você pode usar diretamente a API get_offline_features().

Para obter mais informações sobre a especificação YAML de recuperação de recursos, confira Esquema YAML da especificação de recuperação de recursos da CLI (v2).

Próximas etapas