Tutorial: Criar e implantar uma execução de treinamento do Mosaic AI Model

Importante

Este recurso está na visualização pública nas seguintes regiões: centralus, eastus, eastus2, northcentraluse westus.

Este artigo descreve como criar e configurar uma execução usando a API Mosaic AI Model Training (anteriormente Foundation Model Training) e, em seguida, revisar os resultados e implantar o modelo usando a interface do usuário Databricks e o Mosaic AI Model Serving.

Requerimentos

  • Um espaço de trabalho em uma das seguintes regiões do Azure: centralus, eastus, eastus2, northcentralus, westcentralus, westus, . westus3
  • Databricks Runtime 12.2 LTS ML ou superior.
  • Este tutorial deve ser executado em um bloco de anotações Databricks.
  • Dados de formação no formato aceite. Consulte Preparar dados para o treinamento do Mosaic AI Model.

Etapa 1: Preparar seus dados para treinamento

Consulte Preparar dados para o treinamento do Mosaic AI Model.

Etapa 2: Instalar o databricks_genai SDK

Use o seguinte para instalar o databricks_genai SDK.

%pip install databricks_genai

Em seguida, importe a foundation_model biblioteca:

dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm

Etapa 3: Criar uma execução de treinamento

Crie uma corrida de treinamento usando a função Mosaic AI Model Training create() . Os seguintes parâmetros são necessários:

  • model: o modelo que você quer treinar.
  • train_data_path: a localização do conjunto de dados de treinamento em.
  • register_to: o catálogo e o esquema do Catálogo Unity onde você deseja salvar os pontos de verificação.

Por exemplo:

run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
                train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
                register_to='main.my-directory',
                training_duration='1ep')

run

Etapa 4: Exibir o status de uma execução

O tempo necessário para concluir uma execução de treinamento depende do número de tokens, do modelo e da disponibilidade da GPU. Para um treinamento mais rápido, o Databricks recomenda que você use computação reservada. Entre em contato com sua equipe de conta Databricks para obter detalhes.

Depois de iniciar sua execução, você pode monitorar o status dela usando get_events().

run.get_events()

Etapa 5: Visualizar métricas e saídas

Siga estas etapas para exibir os resultados na interface do usuário do Databricks:

  1. No espaço de trabalho Databricks, clique em Experimentos na barra de navegação esquerda.
  2. Selecione seu experimento na lista.
  3. Analise os gráficos de métricas na guia Gráficos. As métricas de treinamento são geradas para cada execução de treinamento e as métricas de avaliação só são geradas se um caminho de dados de avaliação for fornecido.
    1. A métrica de treinamento primária que mostra o progresso é a perda. A perda de avaliação pode ser usada para ver se o seu modelo está sobreajustado aos seus dados de treinamento. No entanto, a perda não deve ser totalmente invocada porque, em tarefas de treinamento supervisionado, a perda de avaliação pode parecer exagerada enquanto o modelo continua a melhorar.
    2. Quanto maior a precisão, melhor será o seu modelo, mas tenha em mente que uma precisão próxima de 100% pode demonstrar sobreajuste.
    3. As seguintes métricas aparecem no MLflow após a execução:
      • LanguageCrossEntropy Calcula entropia cruzada em saídas de modelagem de linguagem. Uma pontuação mais baixa é melhor.
      • LanguagePerplexity Mede o quão bem um modelo de linguagem prevê a próxima palavra ou caractere em um bloco de texto com base em palavras ou caracteres anteriores. Uma pontuação mais baixa é melhor.
      • TokenAccuracy Calcula a precisão no nível do token para modelagem de linguagem. Uma pontuação mais alta é melhor.
    4. Nesta guia, você também pode visualizar a saída de seus prompts de avaliação, se os tiver especificado.

Etapa 6: Avaliar vários modelos personalizados com o Mosaic AI Agent Evaluation antes de implantar

Consulte O que é Mosaic AI Agent Evaluation?.

Etapa 7: Implantar seu modelo

A execução de treinamento registra automaticamente seu modelo no Catálogo Unity após sua conclusão. O modelo é registrado com base no que você especificou no register_to campo no método run create() .

Para implantar o modelo para servir, siga estas etapas:

  1. Navegue até o modelo no Unity Catalog.
  2. Clique em Servir este modelo.
  3. Clique em Criar ponto de extremidade de serviço.
  4. No campo Nome, forneça um nome para seu ponto de extremidade.
  5. Clique em Criar.

Recursos adicionais