基础模型的 Mosaic AI 模型训练

项目
09/27/2024

重要

该功能在以下区域提供公共预览版：centralus、eastus、eastus2、northcentralus 和 westus。

使用 Mosaic AI 模型训练（前基础模型训练）时，可以使用自己的数据来自定义基础模型，以针对特定应用优化其性能。通过执行全参数微调或继续训练基础模型，可以使用比从头开始训练模型少得多的数据、时间和计算资源来训练自己的模型。

借助 Databricks，可以在单个平台中拥有一切：用于训练的数据、要训练的基础模型、保存到 MLflow 的检查点、在 Unity Catalog 中注册并准备好部署的模型。

请参阅教程：创建和部署 Mosaic AI 模型训练运行，了解如何使用 Mosaic AI 模型训练 API 创建运行，然后使用 Databricks UI 和 Mosaic AI 模型服务查看结果并部署模型。

什么是 Mosaic AI 模型训练？

Mosaic AI 模型训练让你可以使用 Databricks API 或 UI 来优化或进一步训练基础模型。

使用 Mosaic AI 模型训练，可以：

使用自定义数据训练模型，并将检查点保存到 MLflow。保留对已训练模型的完全控制。
自动将模型注册到 Unity Catalog，以便通过模型服务进行轻松部署。
通过加载以前训练的模型的权重进一步训练已完成的专有模型。

Databricks 建议在以下情况下尝试 Mosaic AI 模型训练：

你已经尝试了几次学习，并希望获得更好的结果。
你已尝试对现有模型进行提示工程，并希望获得更好的结果。
你想要对自定义模型拥有完全所有权，以便实现数据隐私。
你对延迟敏感或对成本敏感，并且想要将更小、更便宜的模型用于特定于任务的数据。

受支持的任务

Mosaic AI 模型训练支持以下用例：

聊天补全：建议的任务。通过用户与 AI 助手之间的聊天日志训练模型。此格式既可用于实际的聊天日志，也可以用作问题解答和对话文本的标准格式。文本会自动格式化为特定模型的相应格式。有关模板化的详细信息，请参阅 HuggingFace 文档中的示例聊天模板。
监督式微调：根据结构化的提示-响应数据训练模型。使用此方法使模型适应新任务、更改其响应样式或添加指令遵循功能。此任务不会自动将任何格式应用于数据，仅在需要自定义数据格式时推荐使用。
继续预训练：使用其他文本数据训练模型。使用它将新知识添加到模型或将模型聚焦于特定领域。

要求

以下某个 Azure 区域中的 Databricks 工作区：centralus、eastus、eastus2、northcentralus 或 westus。
使用pip install databricks_genai安装的 Mosaic AI 模型训练 API。
Databricks Runtime 12.2 LTS ML 或更高版本（如果数据位于 Delta 表中）。

有关所需输入数据格式的信息，请参阅为 Mosaic AI 模型训练准备数据。

模型训练的建议数据大小

Databricks 建议最初使用一到四个时期进行训练。评估经过微调的模型后，如果希望模型输出内容与训练数据更相似，则可以开始使用一到两个时期继续进行训练。

如果模型性能在微调数据中未表示的任务上显著下降，或者模型似乎输出了微调数据的精确副本，Databricks 会建议减少训练时期的数量。

若要进行监督式微调和聊天补全，应至少提供模型的一个完整上下文长度的足够标记。例如，对于 meta-llama/Llama-2-7b-chat-hf 提供 4096 个标记，对于 mistralai/Mistral-7B-v0.1 提供 32768 个标记。

对于继续预训练，Databricks 建议至少提供 150 万个令牌，以获取能够学习自定义数据的更高质量的模型。

支持的模型

下表列出了受支持的模型。如需了解最新的受支持模型及其关联的上下文长度，请使用 get_models() 函数。


from databricks.model_training import foundation_model

foundation_model.get_models()

重要

模型	上下文长度上限	备注
`databricks/dbrx-base`	32768
`databricks/dbrx-instruct`	32768
`meta-llama/Llama-3.2-1B`	131072
`meta-llama/Llama-3.2-1B-Instruct`	131072
`meta-llama/Llama-3.2-3B`	131072
`meta-llama/Llama-3.2-3B-Instruct`	131072
`meta-llama/Meta-Llama-3.1-405B`	131072
`meta-llama/Meta-Llama-3.1-405B-Instruct`	131072
`meta-llama/Meta-Llama-3.1-70B`	131072
`meta-llama/Meta-Llama-3.1-70B-Instruct`	131072
`meta-llama/Meta-Llama-3.1-8B`	131072
`meta-llama/Meta-Llama-3.1-8B-Instruct`	131072
`meta-llama/Meta-Llama-3-70B`	8192	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`meta-llama/Meta-Llama-3-70B-Instruct`	8192	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`meta-llama/Meta-Llama-3-8B`	8192	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`meta-llama/Meta-Llama-3-8B-Instruct`	8192	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`meta-llama/Llama-2-7b-hf`	4096	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`meta-llama/Llama-2-13b-hf`	4096	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`meta-llama/Llama-2-70b-hf`	4096	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`meta-llama/Llama-2-7b-chat-hf`	4096	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`meta-llama/Llama-2-13b-chat-hf`	4096	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`meta-llama/Llama-2-70b-chat-hf`	4096	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`codellama/CodeLlama-7b-hf`	16384	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`codellama/CodeLlama-13b-hf`	16384	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`codellama/CodeLlama-34b-hf`	16384	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`codellama/CodeLlama-7b-Instruct-hf`	16384	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`codellama/CodeLlama-13b-Instruct-hf`	16384	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`codellama/CodeLlama-34b-Instruct-hf`	16384	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`codellama/CodeLlama-7b-Python-hf`	16384	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`codellama/CodeLlama-13b-Python-hf`	16384	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`codellama/CodeLlama-34b-Python-hf`	16384	2024 年 12 月 13 日之后，此模型将不再受支持。有关推荐的替代模型，请参阅已停用的模型。
`mistralai/Mistral-7B-v0.1`	32768
`mistralai/Mistral-7B-Instruct-v0.2`	32768
`mistralai/Mixtral-8x7B-v0.1`	32768

使用 Mosaic AI 模型训练

可以使用databricks_genai SDK 访问 Mosaic AI 模型训练。以下示例创建并启动了使用 Unity Catalog 卷中的数据的训练运行。有关配置详细信息，请参阅使用 Mosaic AI 模型训练 API 创建训练运行。

from databricks.model_training import foundation_model as fm

model = 'meta-llama/Meta-Llama-3.1-8B-Instruct'
# UC Volume with JSONL formatted data
train_data_path = 'dbfs:/Volumes/main/mydirectory/ift/train.jsonl'
register_to = 'main.mydirectory'
run = fm.create(
  model=model,
  train_data_path=train_data_path,
  register_to=register_to,
)

请参阅指令微调：命名实体识别演示笔记本，查看指令微调示例，按步骤进行数据准备、微调训练运行配置和部署。

限制

由于计算可用性，不支持大型数据集（10B+ 标记）。
对于连续预训练，工作负载限制为 60-256MB 文件。大于 1GB 的文件可能会导致处理时间过长。
Databricks 努力使最新、最先进的模型可通过 Mosaic AI 模型训练进行自定义。随着新模型的推出，我们可能会移除从 API 或 UI 访问旧模型的功能、弃用旧模型或更新受支持的模型。请参阅生成式 AI 模型维护策略。
Mosaic AI 模型训练仅支持使用专用链接后面的存储对 Azure 工作区进行模型训练。
- 目前仅支持从 eastus2 中专用链接后面的存储读取数据。
对于在 Unity 目录中存储数据的 Azure Data Lake Storage 帐户，如果对其启用了防火墙，则需要将来自 Databricks 无服务器数据平面群集的流量列入允许名单，这样才能使用 Mosaic AI 模型训练。有关详细信息和可能的自定义解决方案，请联系 Databricks 帐户团队。

通过