按令牌付费支持的模型

项目
10/15/2024

重要

只有 GTE Large (En) 和 Meta Llama 3.1 70B Instruct 模型在按令牌付费的欧盟和美国支持的区域中可用。

请参阅仅在美国区域支持的按令牌付费的基础模型 API 限制。

本文介绍在按令牌付费模式下 Databricks 基础模型 API 支持的先进开放模型。

你可以使用 Databricks 工作区中提供的按令牌付费终结点向这些模型发送查询请求。有关要使用的模型终结点的名称，请参阅查询基础模型和外部模型以及按令牌付费支持的模型表。

除了支持按令牌付费模式的模型外，基础模型 API 还提供预配吞吐量模式。 Databricks 建议为生产工作负载使用预配吞吐量。此模式支持一个模型体系结构系列的所有模型（例如 DBRX 模型），包括按令牌付费模式支持的微调和自定义预训练模型。有关支持的体系结构列表，请参阅预配吞吐量基础模型 API。

可以使用 AI 操场与这些支持的模型进行交互。

Meta Llama 3.1 405B 指示

重要

将此模型与基础模型 API 配合使用在公共预览版中。在使用此模型时，如果遇到终结点故障或稳定化错误，请联系 Databricks 客户团队。

重要

Meta-Llama-3.1-405B-Instruct 是最大的开放可用的先进大型语言模型，由 Meta 构建和训练，由 Azure 机器学习通过 AzureML 模型目录分发。使用此模型，客户可以解锁新功能，例如高级、多步骤推理和高质量的合成数据生成。此模型在质量方面与 GPT-4-Turbo 具有竞争力。

与 Meta-Llama-3.1-70B-Instruct 一样，此模型具有 128,000 个令牌的上下文，并支持十种语言。该模型符合人类对于有用性和安全性的偏好，并针对对话用例进行了优化。详细了解 Meta Llama 3.1 模型。

与其他大型语言模型类似，Llama-3.1 的输出可能会遗漏一些事实，偶尔会生成不实信息。 Databricks 建议在准确度特别重要的方案中使用检索增强生成 (RAG)。

DBRX Instruct

重要

DBRX Instruct 是由 Databricks 训练的先进的混合专家 (MoE) 语言模型。

该模型在标准基准测试上优于已建立的开源模型，且擅长一系列自然语言任务，例如：文本摘要、问答、提取和编码。

DBRX Instruct 可以处理的最大输入长度为 32k 个令牌，且可生成最多 4k 个令牌的输出。得益于其 MoE 体系结构，DBRX Instruct 在推理方面非常高效，仅激活训练的总共 132B 个参数中的 36B 个参数。为此模型提供服务的按令牌付费终结点的速率限制为每秒一个查询。请参阅模型服务限制和区域。

与其他大型语言模型类似，DBRX Instruct 的输出可能会遗漏一些事实，并且偶尔会生成不实信息。 Databricks 建议在准确度特别重要的方案中使用检索增强生成 (RAG)。

DBRX 模型使用以下默认系统提示来确保模型响应的相关性和准确性：

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Meta Llama 3.1 70B 指示

重要

从 2024 年 7 月 23 日起，Meta-Llama-3.1-70B-Instruct 支持取代对 Meta-Llama-3-70B-Instruct 的支持，这些终结点按令牌付费。

重要

Meta-Llama-3.1-70B-Instruct 是由 Meta 构建并训练的最先进的大型语言模型，其上下文有 128,000 个标记。该模型支持十种语言，符合人类对于有用性和安全性的偏好，并针对对话用例进行了优化。详细了解 Meta Llama 3.1 模型。

与其他大型语言模型类似，Llama-3 的输出可能会遗漏一些事实，偶尔会生成不实信息。 Databricks 建议在准确度特别重要的方案中使用检索增强生成 (RAG)。

Mixtral-8x7B 指示

Mixtral-8x7B Instruct 是由 Mistral AI 训练的高质量的稀疏专家混合模型 (SMoE)。 Mixtral-8x7B 指示可用于问答、汇总和提取等多种任务。

Mixtral 可以处理最多 32000 个令牌的上下文长度。 Mixtral 可以处理英语、法语、意大利语、德语和西班牙语。在大多数基准（Mixtral 性能）上，Mixtral 都达到了或优于 Llama 2 70B 和 GPT3.5 的水平，而其推理速度比 Llama 70B 快四倍。

与其他大型语言模型类似，不应依赖使用 Mixtral-8x7B Instruct 模型来生成事实上准确的信息。尽管我们已付出大量努力清理了预训练数据，但此模型仍可能会生成猥亵、有偏见或其他冒犯性的输出。为了降低风险，Databricks 默认使用改型的 Mistral 安全模式系统提示。

GTE Large（英语版）

重要

通用文本嵌入 (GTE) 是一个文本嵌入模型，可将任何文本映射到某个 1024 维嵌入矢量和某个拥有 8192 个标记的嵌入窗口。这些矢量可在 LLM 矢量数据库中使用，并可用于检索、分类、问答、聚类分析或语义搜索等任务。此终结点提供模型的英文版本。

与 LLM 一起用于检索增强生成 (RAG) 用例时，嵌入模型特别有效。 GTE 可用于在大型文档区块中查找可在 LLM 上下文中使用的相关文本片段。

BGE 大型（英语）

BAAI 通用嵌入 (BGE) 是一个文本嵌入模型，可将任何文本映射到 1024 维嵌入矢量和 512 个标记的嵌入窗口。这些矢量可在 LLM 矢量数据库中使用，并可用于检索、分类、问答、聚类分析或语义搜索等任务。此终结点提供模型的英文版本。

与 LLM 一起用于检索增强生成 (RAG) 用例时，嵌入模型特别有效。 BGE 可用于在大型文档区块中查找可在 LLM 上下文中使用的相关文本片段。

在 RAG 应用程序中，可以通过包含指令参数来提高检索系统的性能。 BGE 作者建议尝试包含说明 "Represent this sentence for searching relevant passages:" 来进行查询嵌入，不过其性能影响取决于域。

Llama 2 70B 聊天

重要

Llama 2 70B 聊天计划将停用。在 2024 年 10 月 30 日之后，将不再支持此模型。请参阅停用的模型。

重要

Llama-2-70B-Chat 是最先进的 700 亿参数语言模型，其上下文长度为 4,096 个标记，由 Meta 训练。它在需要强大推理能力的交互式应用程序（包括汇总、问答和聊天应用程序）中表现非常出色。

与其他大型语言模型类似，Llama-2-70B 的输出可能会遗漏一些事实，并且偶尔会生成不实信息。 Databricks 建议在准确度特别重要的方案中使用检索增强生成 (RAG)。

通过