Modelos compatíveis com pagamento por token

Importante

Somente os modelos GTE Large (En) e Meta Llama 3.1 70B Instruct estão disponíveis nas regiões com pagamento por token com suporte pela UE e pelos EUA.

Consulte Limites de APIs do Modelo de Base para os modelos de pagamento por token compatíveis apenas com regiões dos EUA.

Este artigo descreve os modelos abertos de última geração compatíveis com as APIs de Modelo Básico do Databricks.

Você pode enviar solicitações de consulta para esses modelos usando os pontos de extremidade de pagamento por token disponíveis em seu workspace do Databricks. Consulte Consultar modelos de IA generativa e tabela de modelos com suporte de pagamento por token para obter os nomes dos pontos de extremidade do modelo a serem usados.

Além de modelos compatíveis com o modo de pagamento por token, as APIs do Modelo Básico também oferecem o modo de taxa de transferência provisionada. O Databricks recomenda a taxa de transferência provisionada para cargas de trabalho de produção. Esse modo dá suporte a todos os modelos de uma família de modelos de arquitetura (por exemplo, modelos DBRX), incluindo os modelos pré-treinados ajustados e personalizados compatíveis com o modo de pagamento por token. Confira APIs do Modelo Básico com taxa de transferência provisionada para obter uma lista de arquiteturas com suporte.

Você pode interagir com esses modelos com suporte usando o Playground de IA.

Meta Llama 3.1 405B Instruct

Importante

O uso desse modelo com APIs do Modelo de Base está em Visualização Pública. Entre em contato com sua equipe de conta do Databricks se encontrar falhas de ponto de extremidade ou erros de estabilização ao usar esse modelo.

Importante

O Meta Llama 3.1 está licenciado sob a LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

O Meta-Llama-3.1-405B-Instruct é o maior modelo de linguagem avançada disponível abertamente, criado e treinado pelo Meta, e é distribuído pelo Azure Machine Learning usando o Catálogo de Modelos do AzureML. O uso desse modelo permite que os clientes desbloqueiem novos recursos, como raciocínio avançado de várias etapas e geração de dados sintéticos de alta qualidade. Esse modelo é competitivo com o GPT-4-Turbo em termos de qualidade.

Como o Meta-Llama-3.1-70B-Instruct, esse modelo tem um contexto de 128.000 tokens e suporte em dez idiomas. Ele se alinha às preferências humanas de utilidade e segurança e é otimizado para casos de uso de diálogo. Saiba mais sobre os modelos do Meta Llama 3.1.

Semelhante a outros grandes modelos de linguagem, o resultado do Llama-3.1 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada por recuperação) em cenários em que a precisão é especialmente importante.

DBRX Instruct

Importante

O DBRX é fornecido e está sujeito à Licença de Modelo Aberto do Databricks, Copyright © Databricks, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis, incluindo a Política de uso aceitável do Databricks.

O DBRX Instruct é um modelo de linguagem mista de especialistas (MoE) de última geração treinado pelo Databricks.

O modelo supera os modelos de software livre estabelecidos em parâmetros de comparação padrão e se destaca em um amplo conjunto de tarefas de linguagem natural, como: resumo de texto, resposta a perguntas, extração e codificação.

O DBRX Instruct pode manipular até 32 mil tokens de comprimento de entrada e gera saídas de até 4 mil tokens. Graças à arquitetura do MoE, o DBRX Instruct é altamente eficiente para inferência, ativando apenas parâmetros de 36B de um total de 132B de parâmetros treinados. O ponto de extremidade de pagamento por token que atende a esse modelo tem um limite de taxa de uma consulta por segundo. Veja Limites e regiões do serviço de modelo.

Semelhante a outros modelos de linguagem grandes, a saída do DBRX Instruct pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada por recuperação) em cenários em que a precisão é especialmente importante.

Os modelos DBRX usam a seguinte solicitação padrão do sistema para garantir a relevância e a precisão nas respostas do modelo:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Meta Llama 3.1 70B Instruct

Importante

A partir de 23 de julho de 2024, Meta-Llama-3.1-70B-Instruct substitui o suporte para Meta-Llama-3-70B-Instruct em pontos de extremidade de pagamento por token de APIs do Foundation Model.

Importante

O Meta Llama 3.1 está licenciado sob a LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

O Meta-Llama-3.1-70B-Instruct é um modelo de linguagem grande de última geração com um contexto de 128.000 tokens que foi criado e treinado pela Meta. O modelo tem suporte em dez idiomas, alinha-se com as preferências humanas de utilidade e segurança e é otimizado para casos de uso de diálogo. Saiba mais sobre os modelos do Meta Llama 3.1.

Semelhante a outros modelos de linguagem grandes, a saída do Llama-3 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada por recuperação) em cenários em que a precisão é especialmente importante.

Mixtral-8x7B Instruct

O Mixtral-8x7B Instruct é uma SMoE (mistura esparsa de alta qualidade de modelo especializado) treinada pela IA do Mistral. O Mixtral-8x7B Instruct pode ser usado para uma variedade de tarefas, como resposta a perguntas, resumo e extração.

O Mixtral pode lidar com tamanhos de contexto de até 32 mil tokens. O Mixtral pode processar inglês, francês, italiano, alemão e espanhol. Mixtral corresponde ou supera Llama 2 70B e GPT3.5 na maioria dos benchmarks (desempenho Mixtral), sendo quatro vezes mais rápido que Llama 70B durante a inferência.

Da mesma forma que outros modelos de linguagem grande, o modelo Mixtral-8x7B Instruct não é considerado confiável para produzir informações factualmente precisas. Embora tenham sido feitos grandes esforços para limpar os dados de pré-treinamento, é possível que esse modelo possa gerar saídas obscenas, preconceituosas ou ofensivas. Para reduzir o risco, o Databricks usa como padrão uma variante do prompt do sistema no modo de segurança do Mistral.

GTE Large (inglês)

Importante

O GTE Large (inglês) é fornecido e está sujeito à Licença do Apache 2.0, Copyright © The Apache Software Foundation, Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

O GTE (General Text Embedding) é um modelo de inserção de texto que pode mapear qualquer texto para um vetor de inserção de dimensão 1.024 e uma janela de inserção de 8.192 tokens. Esses vetores podem ser usados em bancos de dados vetoriais para LLMs, e para tarefas como recuperação, classificação, resposta a perguntas, clustering ou pesquisa semântica. Esse ponto de extremidade atende à versão em inglês do modelo e não gera inserções normalizadas.

Os modelos de inserção são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de RAG (geração aumentada por recuperação). O GTE pode ser usado para encontrar trechos de texto relevantes em grandes blocos de documentos que podem ser usados ​​no contexto de um LLM.

BGE Grande (En)

O BGE (Inserção Geral da BAAI) é um modelo de inserção de texto que pode mapear qualquer texto para um vetor de inserção de 1024 dimensões e uma janela de inserção de 512 tokens. Esses vetores podem ser usados em bancos de dados vetoriais para LLMs, e para tarefas como recuperação, classificação, resposta a perguntas, clustering ou pesquisa semântica. Esse ponto de extremidade atende à versão em inglês do modelo e gera incorporações normalizadas.

Os modelos de inserção são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de RAG (geração aumentada por recuperação). O BGE pode ser usado para localizar trechos de texto relevantes em grandes partes de documentos que podem ser usados no contexto de uma LLM.

Em aplicativos RAG, você pode aprimorar o desempenho do sistema de recuperação incluindo um parâmetro de instrução. Os autores do BGE recomendam tentar usar a instrução "Represent this sentence for searching relevant passages:" para inserções de consulta, embora o impacto no desempenho dela seja dependente de domínio.

Recursos adicionais