Tutorial: Criar e implantar uma execução de ajuste fino do modelo básico

Artigo
01/21/2025

Importante

Este recurso está na visualização pública nas seguintes regiões: centralus, eastus, eastus2, northcentraluse westus.

Este artigo descreve como criar e configurar uma execução usando a API Foundation Model Fine-tuning (agora parte do Mosaic AI Model Training) e, em seguida, revisar os resultados e implantar o modelo usando a interface do usuário do Databricks e o Mosaic AI Model Serving.

Requerimentos

Um espaço de trabalho em uma das seguintes regiões do Azure: centralus, eastus, eastus2, northcentralus, westcentralus, westus, . westus3
Databricks Runtime 12.2 LTS ML ou superior.
Este tutorial deve ser executado em um bloco de anotações Databricks.
Dados de formação no formato aceite. Consulte Preparar dados para ajuste fino do modelo de fundação.

Etapa 1: Preparar seus dados para treinamento

Consulte Preparar dados para ajuste fino do modelo de fundação.

Etapa 2: Instalar o `databricks_genai` SDK

Use o seguinte para instalar o databricks_genai SDK.

%pip install databricks_genai

Em seguida, importe a foundation_model biblioteca:

dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm

Etapa 3: Criar uma execução de treinamento

Crie uma execução de treinamento usando a função de ajuste fino do modelo básico create() . Os seguintes parâmetros são necessários:

model: o modelo que você quer treinar.
train_data_path: a localização do conjunto de dados de treinamento em.
register_to: o catálogo e o esquema do Unity Catalog onde pretendes salvar os pontos de verificação.

Por exemplo:

run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
                train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
                register_to='main.my-directory',
                training_duration='1ep')

run

Etapa 4: Exibir o status de uma execução

O tempo necessário para concluir uma execução de treinamento depende do número de tokens, do modelo e da disponibilidade da GPU. Para um treinamento mais rápido, o Databricks recomenda que você use computação reservada. Entre em contato com sua equipe de conta Databricks para obter detalhes.

Depois de iniciar sua execução, você pode monitorar o status dela usando get_events().

run.get_events()

Etapa 5: Visualizar métricas e saídas

Siga estas etapas para exibir os resultados na interface do usuário do Databricks:

No espaço de trabalho Databricks, clique em Experimentos na barra de navegação esquerda.
Selecione seu experimento na lista.
Analise os gráficos de métricas na guia Gráficos. As métricas de treinamento são geradas para cada execução de treinamento e as métricas de avaliação só são geradas se um caminho de dados de avaliação for fornecido.
1. A métrica de treinamento primária que mostra o progresso é a perda. A perda de avaliação pode ser usada para ver se o seu modelo está sobreajustado aos seus dados de treinamento. No entanto, a perda não deve ser totalmente invocada porque, em tarefas de treinamento de instrução, a perda de avaliação pode parecer exagerada enquanto o modelo continua a melhorar.
2. Quanto maior a precisão, melhor será o seu modelo, mas tenha em mente que uma precisão próxima de 100% pode demonstrar sobreajuste.
3. As seguintes métricas aparecem no MLflow após a execução:
  - LanguageCrossEntropy Calcula entropia cruzada em saídas de modelagem de linguagem. Uma pontuação mais baixa é melhor.
  - LanguagePerplexity Mede o quão bem um modelo de linguagem prevê a próxima palavra ou caractere em um bloco de texto com base em palavras ou caracteres anteriores. Uma pontuação mais baixa é melhor.
  - TokenAccuracy Calcula a precisão no nível do token para modelagem de linguagem. Uma pontuação mais alta é melhor.
4. Nesta guia, você também pode visualizar a saída de seus prompts de avaliação, se os tiver especificado.

Etapa 6: Avaliar vários modelos personalizados com o Mosaic AI Agent Evaluation antes de implantar

Consulte O que é Mosaic AI Agent Evaluation?.

Etapa 7: Implantar seu modelo

A execução de treinamento registra automaticamente seu modelo no Catálogo Unity após sua conclusão. O modelo é registrado com base no que você especificou no register_to campo no método run create() .

Para implantar o modelo para servir, siga estas etapas:

Navegue até o modelo no Unity Catalog.
Clique em Servir este modelo.
Clique em Criar ponto de extremidade de serviço.
No campo Nome, forneça um nome para seu ponto de extremidade.
Clique em Criar.

Recursos adicionais

Criar uma execução de treinamento usando a API de ajuste fino do modelo básico
Ajuste fino do modelo de fundação
Implante modelos usando o Mosaic AI Model Serving
Consulte o bloco de anotações de demonstração Ajuste fino de instruções: reconhecimento de entidade nomeada para obter um exemplo de ajuste fino de instruções que percorre a preparação de dados, o ajuste fino, o treinamento, a execução, a configuração e a implantação.

Partilhar via

Tutorial: Criar e implantar uma execução de ajuste fino do modelo básico

Requerimentos

Etapa 1: Preparar seus dados para treinamento

Etapa 2: Instalar o `databricks_genai` SDK

Etapa 3: Criar uma execução de treinamento

Etapa 4: Exibir o status de uma execução

Etapa 5: Visualizar métricas e saídas

Etapa 6: Avaliar vários modelos personalizados com o Mosaic AI Agent Evaluation antes de implantar

Etapa 7: Implantar seu modelo

Recursos adicionais

Comentários

Recursos adicionais

Partilhar via

Tutorial: Criar e implantar uma execução de ajuste fino do modelo básico

Requerimentos

Etapa 1: Preparar seus dados para treinamento

Etapa 2: Instalar o databricks_genai SDK

Etapa 3: Criar uma execução de treinamento

Etapa 4: Exibir o status de uma execução

Etapa 5: Visualizar métricas e saídas

Etapa 6: Avaliar vários modelos personalizados com o Mosaic AI Agent Evaluation antes de implantar

Etapa 7: Implantar seu modelo

Recursos adicionais

Comentários

Recursos adicionais

Etapa 2: Instalar o `databricks_genai` SDK