トークン単位の支払いでサポートされているモデル

重要

この機能はパブリック プレビュー段階にあります。

この記事では、トークン単位の支払いモードで Databricks Foundation Model API によってサポートされている最先端のオープン モデルについて説明します。

Databricks ワークスペースで使用可能なトークン単位の支払いエンドポイントを使用して、これらのモデルにクエリ要求を送信できます。 使用するモデル エンドポイントの名前については、「基盤モデルと外部モデルのクエリを実行する」およびトークン単位の支払いがサポートされているモデルの表をご覧ください。

Foundation Model API は、トークン単位の支払いモードでモデルをサポートするほか、プロビジョニングされたスループット モードを提供しています。 Databricks では、運用ワークロードにプロビジョニングされたスループットをお勧めしています。 このモードでは、トークン単位の支払いモードでサポートされる微調整された、またはカスタムの事前トレーニング済みのモデルなど、モデル アーキテクチャ ファミリのすべてのモデル (DBRX モデルなど) がサポートされます。 サポートされるモデル アーキテクチャの一覧については、「プロビジョニング スループット Foundation Model API」を参照してください。

AI プレイグラウンドを使って、サポートされているこれらのモデルを操作できます。

Meta Llama 3.1 405B Instruct

重要

Meta Llama 3.1 は LLAMA 3.1 Community License の下でライセンスされています (Copyright © Meta Platforms, Inc. All Rights Reserved.)。 お客様は、該当するモデル ライセンスへのコンプライアンスを遵守する責任を負います。

Meta-Llama-3.1-405B-Instruct は、Meta によって構築およびトレーニングされ、AzureML モデルカタログを使用して Azure Machine Learning によって配布された、公開されている中で最大の最先端の大規模言語モデルです。 このモデルを使用すると、高度なマルチステップ推論や、高品質の合成データ生成などの新機能のロックを解除できます。 このモデルは品質の点で GPT-4-Turbo と拮抗しています。

Meta-Llama-3.1-70B-Instruct と同様に、このモデルには 128,000 個のトークンのコンテキストがあり、10 の言語でサポートされています。 人間の好みに合わせた調整で有用性と安全性が確保され、対話型のユース ケース用に最適化されます。 Meta Llama 3.1 モデルに関する詳細を確認する

他の大規模言語モデルと同様に、Llama-3.1 の出力では事実の一部が省略されたり、時折誤った情報が生成されたりする場合があります。 Databricks では、精度が特に重要なシナリオ内では、取得拡張生成 (RAG) を使用することをお勧めします。

DBRX Instruct

重要

DBRX は、Databricks Open Model License (Copyright © Databricks, Inc.) の下で提供され、その対象となります。All rights reserved. お客様は、Databricks 利用規約を含む、該当するモデル ライセンスへのコンプライアンスを遵守する責任を負います。

DBRX Instruct は、Databricks によってトレーニングされた最先端の混合エキスパート (MoE) 言語モデルです。

このモデルは、標準ベンチマークで確立されたオープン ソース モデルより優れており、テキストの要約、質問への回答、抽出、コーディングなど、さまざまな自然言語タスクを得意としています。

DBRX Instruct では、処理できる入力長のトークン数が最大 32,000 個であり、最大 4,000 個のトークンの出力を生成します。 その MoE アーキテクチャを利用して、DBRX Instruct は推論に高い効率性を発揮し、合計 132B のトレーニング済みパラメーターのうち 36B のパラメーターしかアクティブにしません。 このモデルを提供するトークン単位の支払いエンドポイントには、1 秒あたり 1 つのクエリというレート制限があります。 「モデル提供の制限とリージョン」を参照してください。

他の大規模言語モデルと同様に、DBRX Instruct の出力ではいくつかの事実が省略されたり、時折誤った情報が生成されたりする場合があります。 Databricks では、精度が特に重要なシナリオ内では、取得拡張生成 (RAG) を使用することをお勧めします。

DBRX モデルでは、次の既定のシステム プロンプトを使用して、モデル応答の関連性と正確性が確保されます。

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Meta Llama 3.1 70B Instruct

重要

2024 年 7 月 23 日以降、Meta-Llama-3.1-70B-Instruct によって、Foundation Model API のトークン単位の支払いエンドポイントでの Meta-Llama-3-70B-Instruct のサポートが置き換えられます。

重要

Meta Llama 3.1 は LLAMA 3.1 Community License の下でライセンスされています (Copyright © Meta Platforms, Inc. All Rights Reserved.)。 お客様は、該当するモデル ライセンスへのコンプライアンスを遵守する責任を負います。

Meta-Llama-3.1-70B-Instruct は、Meta によって構築およびトレーニングされた、128,000 個のトークンのコンテキストを持つ最先端の大規模言語モデルです。 このモデルは 10 の言語でサポートされており、人間の好みに合わせた調整で有用性と安全性が確保され、対話型のユース ケース用に最適化されます。 Meta Llama 3.1 モデルに関する詳細を確認する

他の大規模言語モデルと同様に、Llama-3 の出力ではいくつかの事実が省略されたり、時折誤った情報が生成されたりする場合があります。 Databricks では、精度が特に重要なシナリオ内では、取得拡張生成 (RAG) を使用することをお勧めします。

Mixtral-8x7B Instruct

Mixtral-8x7B Instruct は、Mistral AI によってトレーニングされた、高品質なエキスパート モデルのスパース混合 (SMoE) です。 Mixtral-8x7B Instruct は、質問と回答、要約、抽出などのさまざまなタスクに使用することができます。

Mixtral は、最大 32,000 個のトークンのコンテキスト長を処理できます。 Mixtral は、英語、フランス語、イタリア語、ドイツ語、スペイン語を処理できます。 Mixtral は、ほとんどのベンチマーク (Mixtral パフォーマンス) で Llama 2 70B および GPT3.5 と同等かそれらを上回り、推論中は Llama 70B より 4 倍高速です。

他の大規模言語モデルと同様に、事実に照らした正確な情報を生成するためには Mixtral-8x7B 指示モデルに依存しないでください。 トレーニング前のデータをクリーンアップするために多大な努力が行われていますが、このモデルがわいせつな、偏った、あるいは攻撃的な出力を生成する可能性があります。 リスクを軽減するために、Databricks では既定で、Mistral のセーフ モード システム プロンプトのバリアントが使用されます。

GTE Large (英語)

重要

GTE Large (英語) は、Apache 2.0 License、Copyright © The Apache Software Foundation、All rights reserved の元に提供され、適用されます。 お客様は、該当するモデル ライセンスへのコンプライアンスを遵守する責任を負います。

General Text Embedding (GTE) は、任意のテキストを 1024 次元の埋め込みベクトル、および 8192 個のトークンの埋め込みウインドウにマップすることができる、テキスト埋め込みモデルです。 これらのベクトルは、LLM のベクトル データベース内、および取得、分類、質問への回答、クラスタリング、セマンティック検索などのタスクで使用することができます。 このエンドポイントでは、英語版のモデルが提供されます。

埋め込みモデルは、取得拡張生成 (RAG) のユース ケースで、LLM と組み合わせて使用する場合に特に効果的です。 GTE を使用すると、LLM のコンテキスト内で使用できる大量のドキュメント内で、関連するテキスト スニペットを検索することができます。

BGE Large (英語版)

BAAI General Embedding (BGE) は、任意のテキストを 1024 次元の埋め込みベクトル、および 512 個のトークンの埋め込みウインドウにマップすることができる、テキスト埋め込みモデルです。 これらのベクトルは、LLM のベクトル データベース内、および取得、分類、質問への回答、クラスタリング、セマンティック検索などのタスクで使用することができます。 このエンドポイントでは、英語版のモデルが提供されます。

埋め込みモデルは、取得拡張生成 (RAG) のユース ケースで、LLM と組み合わせて使用する場合に特に効果的です。 BGE を使用すると、LLM のコンテキスト内で使用できる大量のドキュメント内で、関連するテキスト スニペットを検索することができます。

RAG アプリケーションでは、命令パラメーターを含めることで、取得システムのパフォーマンスを向上させることができます。 BGE の作成者は、クエリ埋め込みの命令 "Represent this sentence for searching relevant passages:" を試すことを推奨していますが、パフォーマンスへの影響はドメインに依存します。

Llama 2 70B Chat

重要

Llama 2 70B Chat は廃止が予定されています。 このモデルは、2024 年 10 月 30 日以降サポートされなくなる予定です。 「廃止されたモデル」を参照してください。

重要

Llama 2 は、LLAMA 2 Community License、Copyright © Meta Platforms, Inc. に基づいてライセンス供与されています。All Rights Reserved. お客様は、該当するモデル ライセンスへのコンプライアンスを遵守する責任を負います。

Llama-2-70B-Chat は、Meta によってトレーニングされたコンテキスト長が 4,096 トークンの最先端の 700 億パラメータの言語モデルです。 要約、質問への回答、チャット アプリケーションなど、強力な推論機能を必要とする対話型アプリケーションに優れています。

他の大規模言語モデルと同様に、Llama-2-70B の出力ではいくつかの事実が省略されたり、時折誤った情報が生成されたりする場合があります。 Databricks では、精度が特に重要なシナリオ内では、取得拡張生成 (RAG) を使用することをお勧めします。

MPT 7B Instruct

重要

MPT 7B Instruct は廃止される予定です。 このモデルは、2024 年 8 月 30 日以降サポートされなくなる予定です。 「廃止されたモデル」を参照してください。

MPT-7B-8K-Instruct は、長い形式の命令 (特に長いドキュメントに関する質問への回答や要約) のために、MosaicML によってトレーニングされた、67 億パラメータのモデルです。 このモデルは、データセットの組み合わせで 1.5 兆トークン用に事前トレーニングされ、Databricks Dolly-15k および Anthropic Helpful and Unsupport (HH-RLHF) データセットから派生したデータセットで微調整されます。製品に表示されるモデル名は mpt-7b-instruct ですが、使用されている具体的なモデルは新しいバージョンのモデルです。

MPT-7B-8K-Instruct は、質問への回答、要約、抽出などのさまざまなタスクに使用することができます。 Llama-2-70B に比べると非常に高速ですが、品質の低い応答が生成される場合があります。 このモデルでは、8,000 トークンのコンテキスト長がサポートされています。 MPT-7B-8k-Instruct モデルの詳細を確認します

このサイズの他の言語モデルと同様に、実際に正確な情報を生成するために MPT-7B-8K-Instruct に依存しないでください。 このモデルは、さまざまなパブリック データセットでトレーニングされました。 トレーニング前のデータをクリーンアップするために多大な努力が行われていますが、このモデルがわいせつな、偏った、あるいは攻撃的な出力を生成する可能性があります。

MPT 30B Instruct

重要

MPT 30B Instruct モデルは廃止される予定です。 このモデルは、2024 年 8 月 30 日以降サポートされなくなる予定です。 「廃止されたモデル」を参照してください。

MPT-30B-Instruct は、MosaicML によってトレーニングされた命令の 30B パラメーター モデルです。 このモデルは、英語テキストとコードの混合の 1 兆個のトークンに対して事前にトレーニングされ、さらに Databricks Dolly-15k、Anthropic Helpful and Harmless (HH-RLHF)、CompetitionMath、DuoRC、CoT GSM8k、QASPER、QuALITY、SummScreen、Spider のデータセットから派生したデータセットでさらに命令が微調整されています。

MPT-30B-Instruct は、質問と回答、要約、抽出などのさまざまなタスクに使用することができます。 これは Llama-2-70B に比べると非常に高速ですが、品質の低い応答が生成される場合があり、マルチターンのチャットはサポートされません。 このモデルでは、8,192 トークンのコンテキスト長がサポートされています。 MPT-30B-Instruct モデルの詳細を確認します

このサイズの他の言語モデルと同様に、実際に正確な情報を生成するために MPT-30B-Instruct に依存しないでください。 このモデルは、さまざまなパブリック データセットでトレーニングされました。 トレーニング前のデータをクリーンアップするために多大な努力が行われていますが、このモデルがわいせつな、偏った、あるいは攻撃的な出力を生成する可能性があります。

その他のリソース