Modelos admitidos para pago por token

Importante

Solo los modelos GTE Large (En) y Meta Llama 3.1 70B Instruct están disponibles en regiones compatibles de la UE y EE. UU. de pago por token.

Vea Límites de las API de modelos básicos para los modelos de pago por token solo admitidos en regiones de EE. UU.

En este artículo se describen los modelos abiertos de última generación admitidos con las API de modelo de Databricks Foundation de en modo de pago por token.

Puede enviar solicitudes de consulta a estos modelos mediante los puntos de conexión de pago por token disponibles en el área de trabajo de Databricks. Consulte Consulta de modelos de IA generativos y tabla de modelos admitidos de pago por token para conocer los nombres de los puntos de conexión del modelo que se van a usar.

Además de admitir modelos en modo de pago por token, las API de Foundation Model también ofrecen el modo de rendimiento aprovisionado. Databricks recomienda el rendimiento aprovisionado para cargas de trabajo de producción. Este modo admite todos los modelos de una familia de arquitectura de modelos (por ejemplo, modelos DBRX), incluidos los modelos predefinidos y personalizados entrenados compatibles con el modo de pago por token. Consulte las API del modelo Foundation de rendimiento aprovisionado para obtener la lista de arquitecturas admitidas.

Puede interactuar con estos modelos admitidos mediante AI Playground.

Meta Llama 3.1 405B Instruct

Importante

El uso de este modelo con las API de modelos básicos está en versión preliminar pública. Póngase en contacto con el equipo de la cuenta de Databricks si encuentra errores de punto de conexión o errores de estabilización al usar este modelo.

Importante

Meta Llama 3.1 tiene licencia bajo la licencia LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. All Rights Reserved. Los clientes son responsables de garantizar el cumplimiento de las licencias de modelo aplicables.

Meta-Llama-3.1-405B-Instruct es el modelo de lenguaje grande más grande disponible abiertamente, compilado y entrenado por Meta, y se distribuye mediante Azure Machine Learning mediante el catálogo de modelos de AzureML. El uso de este modelo permite a los clientes desbloquear nuevas funcionalidades, como el razonamiento avanzado, multiproceso y generación de datos sintéticos de alta calidad. Este modelo es competitivo con GPT-4-Turbo en términos de calidad.

Al igual que Meta-Llama-3.1-70B-Instruct, este modelo tiene un contexto de 128 000 tokens y es compatible con diez idiomas. Se alinea con las preferencias humanas de utilidad y seguridad, y está optimizado para los casos de uso del diálogo. Obtenga más información sobre los modelos de Meta Llama 3.1.

Al igual que otros modelos de lenguaje de gran tamaño, los resultados de Llama-3.1 pueden omitir algunos hechos y ocasionalmente producir información falsa. Databricks recomienda usar la generación aumentada de recuperación (RAG) en escenarios en los que la precisión es especialmente importante.

DBRX Instruct

Importante

DBRX se proporciona bajo y sujeto a la Licencia de Modelo Abierto de Databricks, Copyright © Databricks, Inc. Todos los derechos reservados. Los clientes son responsables de garantizar el cumplimiento de las licencias de modelo aplicables, incluida la Directiva de uso aceptable de Databricks.

DBRX Instruct es una mezcla de expertos (MoE) de última generación entrenado por Databricks.

El modelo supera los modelos de código abierto establecidos en pruebas comparativas estándar y destaca en un amplio conjunto de tareas de lenguaje natural, como: resumen de texto, respuesta a preguntas, extracción y codificación.

DBRX Indica puede controlar hasta 32k tokens de longitud de entrada y genera salidas de hasta 4k tokens. Gracias a su arquitectura MoE, DBRX Instruct es altamente eficaz para la inferencia, activando solo 36B parámetros de un total de 132B parámetros entrenados. El punto de conexión de pago por token que sirve a este modelo tiene un límite de velocidad de una consulta por segundo. Consulte límites de servicio de modelos y regiones.

De forma similar a otros modelos de lenguaje grande, la salida de DBRX Instruct puede omitir algunos hechos y, en ocasiones, generar información falsa. Databricks recomienda usar la generación aumentada de recuperación (RAG) en escenarios en los que la precisión es especialmente importante.

Los modelos DBRX usan el siguiente símbolo del sistema predeterminado para garantizar la relevancia y la precisión en las respuestas del modelo:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Meta Llama 3.1 70B Instruct

Importante

A partir del 23 de julio de 2024, Meta-Llama-3.1-70B-Instruct reemplaza la compatibilidad con Meta-Llama-3-70B-Instruct en la API Foundation Modelde pago por token.

Importante

Meta Llama 3.1 tiene licencia bajo la licencia LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. All Rights Reserved. Los clientes son responsables de garantizar el cumplimiento de las licencias de modelo aplicables.

Meta-Llama-3.1-70B-Instruct es un modelo de lenguaje de gran tamaño de última generación con un contexto de 128 000 tokens que fue construido y entrenado por Meta. El modelo tiene compatibilidad con diez idiomas, se ajusta a las preferencias humanas en cuanto a utilidad y seguridad, y está optimizado para casos de uso del diálogo. Obtenga más información sobre los modelos de Meta Llama 3.1.

De forma similar a otros modelos de lenguaje grande, la salida Llama-3 puede omitir algunos hechos y, en ocasiones, producir información falsa. Databricks recomienda usar la generación aumentada de recuperación (RAG) en escenarios en los que la precisión es especialmente importante.

Instrucción mixtral-8x7B

La instrucción Mixtral-8x7B es una mezcla dispersa de alta calidad del modelo experto (SMoE) entrenado por Mistral AI. La instrucción Mixtral-8x7B se puede usar para diversas tareas, como las de respuesta a preguntas, resumen y extracción.

Mixtral puede controlar longitudes de contexto de hasta 32 000 tokens. Mixtral puede procesar inglés, francés, italiano, alemán y español. Mixtral iguala o supera a Llama 2 70B y GPT3.5, en la mayoría de los puntos de referencia (rendimiento de Mixtral), mientras que es cuatro veces más rápidas que Llama 70B durante la inferencia.

Como sucede con otros modelos de lenguaje de gran tamaño, no se debe confiar en que el modelo de instrucción Mixtral-8x7B generará información objetivamente precisa. Aunque se ha hecho un gran esfuerzo para limpiar los datos de entrenamiento previo, es posible que este modelo pueda generar resultados obscenos, sesgados u ofensivos. Para reducir el riesgo, Databricks usa una variante del símbolo del sistema en modo seguro de Mistral.

GTE grande (En)

Importante

GTE Grande (En) se proporciona bajo y sujeto a la licenciade Apache 2.0, Copyright © The Apache Software Foundation, Todos los derechos reservados. Los clientes son responsables de garantizar el cumplimiento de las licencias de modelo aplicables.

Inserción de texto general (GTE) es un modelo de inserción de texto que puede asignar cualquier texto a un vector de inserción de 1024 dimensiones y una ventana de inserción de 8192 tokens. Estos vectores se pueden usar en bases de datos vectoriales para VM y para tareas como recuperación, clasificación, respuesta a preguntas, agrupación en clústeres o búsqueda semántica. Este punto de conexión sirve la versión en inglés del modelo y no genera incrustaciones normalizadas.

Los modelos de inserción son especialmente eficaces cuando se usan junto con los LLM en casos de uso de generación aumentada de recuperación (RAG). GTE se puede usar para buscar fragmentos de texto relevantes en fragmentos grandes de documentos que se pueden usar en el contexto de un LLM.

BGE Large (En)

Inserción general BAAI (BGE) es un modelo de inserción de texto que puede asignar cualquier texto a un vector de inserción de 1024 dimensiones y una ventana de inserción de 512 tokens. Estos vectores se pueden usar en bases de datos vectoriales para VM y para tareas como recuperación, clasificación, respuesta a preguntas, agrupación en clústeres o búsqueda semántica. Este punto de conexión sirve la versión en inglés del modelo y genera incrustaciones normalizadas.

Los modelos de inserción son especialmente eficaces cuando se usan junto con los LLM en casos de uso de generación aumentada de recuperación (RAG). BGE se puede emplear para encontrar fragmentos de texto pertinentes en fragmentos grandes de documentos que se pueden usar en el contexto de un LLM.

En las aplicaciones RAG, es posible que pueda mejorar el rendimiento del sistema de recuperación mediante la inclusión de un parámetro de instrucción. Los autores de BGE recomiendan probar la instrucción "Represent this sentence for searching relevant passages:" para las inserciones de consultas, aunque su impacto en el rendimiento depende del dominio.

Recursos adicionales