トークン単位の支払いでサポートされているモデル

[アーティクル]
11/02/2024

重要

GTE Large (En) と Meta Llama 3.1 70B Instruct モデルのみがトークン単位の支払いの EU と米国でサポートされているリージョンで利用できます。

米国リージョンでのみサポートされているトークン単位の支払いモデルについては、「Foundation Model API の制限」を参照してください。

この記事では、トークン単位の支払いモードで Databricks Foundation Model API によってサポートされている最先端のオープンモデルについて説明します。

Databricks ワークスペースで使用可能なトークン単位の支払いエンドポイントを使用して、これらのモデルにクエリ要求を送信できます。使用するモデルエンドポイントの名前については、「 Query の生成 AI モデルおよびトークンごとの支払いでサポートされるモデルの表を参照してください。

Foundation Model API は、トークン単位の支払いモードでモデルをサポートするほか、プロビジョニングされたスループットモードを提供しています。 Databricks では、運用ワークロードにプロビジョニングされたスループットをお勧めしています。このモードでは、トークン単位の支払いモードでサポートされる微調整された、またはカスタムの事前トレーニング済みのモデルなど、モデルアーキテクチャファミリのすべてのモデル (DBRX モデルなど) がサポートされます。サポートされるモデルアーキテクチャの一覧については、「プロビジョニングスループット Foundation Model API」を参照してください。

AI プレイグラウンドを使って、サポートされているこれらのモデルを操作できます。

Meta Llama 3.1 405B Instruct

重要

Foundation Model API を持ったこのモデルの使用については、「パブリックプレビュー」を参照してください。このモデルの使用時にエンドポイントの障害や安定化エラーが発生した場合、Databricks アカウントチームにお問い合わせください。

重要

Meta-Llama-3.1-405B-Instruct は、Meta によって構築およびトレーニングされ、AzureML モデルカタログを使用して Azure Machine Learning によって配布された、公開されている中で最大の最先端の大規模言語モデルです。このモデルを使用すると、高度なマルチステップ推論や、高品質の合成データ生成などの新機能のロックを解除できます。このモデルは品質の点で GPT-4-Turbo と拮抗しています。

Meta-Llama-3.1-70B-Instruct と同様に、このモデルには 128,000 個のトークンのコンテキストがあり、10 の言語でサポートされています。人間の好みに合わせた調整で有用性と安全性が確保され、対話型のユースケース用に最適化されます。 Meta Llama 3.1 モデルに関する詳細を確認する。

他の大規模言語モデルと同様に、Llama-3.1 の出力では事実の一部が省略されたり、時折誤った情報が生成されたりする場合があります。 Databricks では、精度が特に重要なシナリオ内では、取得拡張生成 (RAG) を使用することをお勧めします。

DBRX Instruct

重要

DBRX Instruct は、Databricks によってトレーニングされた最先端の混合エキスパート (MoE) 言語モデルです。

このモデルは、標準ベンチマークで確立されたオープンソースモデルより優れており、テキストの要約、質問への回答、抽出、コーディングなど、さまざまな自然言語タスクを得意としています。

DBRX Instruct では、処理できる入力長のトークン数が最大 32,000 個であり、最大 4,000 個のトークンの出力を生成します。その MoE アーキテクチャを利用して、DBRX Instruct は推論に高い効率性を発揮し、合計 132B のトレーニング済みパラメーターのうち 36B のパラメーターしかアクティブにしません。このモデルを提供するトークン単位の支払いエンドポイントには、1 秒あたり 1 つのクエリというレート制限があります。「モデル提供の制限とリージョン」を参照してください。

他の大規模言語モデルと同様に、DBRX Instruct の出力ではいくつかの事実が省略されたり、時折誤った情報が生成されたりする場合があります。 Databricks では、精度が特に重要なシナリオ内では、取得拡張生成 (RAG) を使用することをお勧めします。

DBRX モデルでは、次の既定のシステムプロンプトを使用して、モデル応答の関連性と正確性が確保されます。

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Meta Llama 3.1 70B Instruct

重要

2024 年 7 月 23 日以降、Meta-Llama-3.1-70B-Instruct によって、Foundation Model API のトークン単位の支払いエンドポイントでの Meta-Llama-3-70B-Instruct のサポートが置き換えられます。

重要

Meta-Llama-3.1-70B-Instruct は、Meta によって構築およびトレーニングされた、128,000 個のトークンのコンテキストを持つ最先端の大規模言語モデルです。このモデルは 10 の言語でサポートされており、人間の好みに合わせた調整で有用性と安全性が確保され、対話型のユースケース用に最適化されます。 Meta Llama 3.1 モデルに関する詳細を確認する。

他の大規模言語モデルと同様に、Llama-3 の出力ではいくつかの事実が省略されたり、時折誤った情報が生成されたりする場合があります。 Databricks では、精度が特に重要なシナリオ内では、取得拡張生成 (RAG) を使用することをお勧めします。

Mixtral-8x7B Instruct

Mixtral-8x7B Instruct は、Mistral AI によってトレーニングされた、高品質なエキスパートモデルのスパース混合 (SMoE) です。 Mixtral-8x7B Instruct は、質問と回答、要約、抽出などのさまざまなタスクに使用することができます。

Mixtral は、最大 32,000 個のトークンのコンテキスト長を処理できます。 Mixtral は、英語、フランス語、イタリア語、ドイツ語、スペイン語を処理できます。 Mixtral は、ほとんどのベンチマーク (Mixtral パフォーマンス) で Llama 2 70B および GPT3.5 と同等かそれらを上回り、推論中は Llama 70B より 4 倍高速です。

他の大規模言語モデルと同様に、事実に照らした正確な情報を生成するためには Mixtral-8x7B 指示モデルに依存しないでください。トレーニング前のデータをクリーンアップするために多大な努力が行われていますが、このモデルがわいせつな、偏った、あるいは攻撃的な出力を生成する可能性があります。リスクを軽減するために、Databricks では既定で、Mistral のセーフモードシステムプロンプトのバリアントが使用されます。

GTE Large (英語)

重要

General Text Embedding (GTE) は、任意のテキストを 1024 次元の埋め込みベクトル、および 8192 個のトークンの埋め込みウインドウにマップすることができる、テキスト埋め込みモデルです。これらのベクトルは、LLM のベクトルデータベース内、および取得、分類、質問への回答、クラスタリング、セマンティック検索などのタスクで使用することができます。このエンドポイントは、モデルの英語版を提供し、正規化された埋め込みを生成しません。

埋め込みモデルは、取得拡張生成 (RAG) のユースケースで、LLM と組み合わせて使用する場合に特に効果的です。 GTE を使用すると、LLM のコンテキスト内で使用できる大量のドキュメント内で、関連するテキストスニペットを検索することができます。

BGE Large (英語版)

BAAI General Embedding (BGE) は、任意のテキストを 1024 次元の埋め込みベクトル、および 512 個のトークンの埋め込みウインドウにマップすることができる、テキスト埋め込みモデルです。これらのベクトルは、LLM のベクトルデータベース内、および取得、分類、質問への回答、クラスタリング、セマンティック検索などのタスクで使用することができます。このエンドポイントは、モデルの英語版を提供し、正規化された埋め込みを生成します。

埋め込みモデルは、取得拡張生成 (RAG) のユースケースで、LLM と組み合わせて使用する場合に特に効果的です。 BGE を使用すると、LLM のコンテキスト内で使用できる大量のドキュメント内で、関連するテキストスニペットを検索することができます。

RAG アプリケーションでは、命令パラメーターを含めることで、取得システムのパフォーマンスを向上させることができます。 BGE の作成者は、クエリ埋め込みの命令 "Represent this sentence for searching relevant passages:" を試すことを推奨していますが、パフォーマンスへの影響はドメインに依存します。

次の方法で共有