Tipos de implementación de Azure OpenAI

Artículo
11/03/2024

Azure OpenAI proporciona a los clientes opciones en la estructura de hospedaje que se ajustan a sus patrones de uso y negocio. El servicio ofrece dos tipos principales de implementaciones: estándar y aprovisionada. Para un tipo de implementación determinado, los clientes pueden alinear sus cargas de trabajo con sus requisitos de procesamiento de datos eligiendo una zona de datos especificada por Azure (Standard o Provisioned), opciones de procesamiento de zona de datos especificadas por Microsoft (DataZone-Standard) o Global (Global-Standard o Global Provisioned-Managed).

Todas las implementaciones pueden realizar exactamente las mismas operaciones de inferencia, pero la facturación, la escala y el rendimiento son considerablemente diferentes. Como parte del diseño de la solución, deberá tomar dos decisiones clave:

Ubicación de procesamiento de datos
Volumen de llamadas

Ubicaciones de procesamiento de datos de implementación de Azure OpenAI

En el caso de las implementaciones estándar, hay tres opciones de tipo de implementación entre las que elegir: global, zona de datos y geografía de Azure. En el caso de las implementaciones aprovisionadas, hay dos opciones de tipo de implementación entre las que elegir: global y geografía de Azure. La norma mundial es el punto de partida recomendado.

Las implementaciones globales aprovechan la infraestructura global de Azure para enrutar dinámicamente el tráfico de los clientes al centro de datos con la mejor disponibilidad para las solicitudes de inferencia del cliente’. Esto significa que obtendrá los límites de rendimiento iniciales más altos y la mejor disponibilidad del modelo con global, sin dejar de proporcionar nuestro Acuerdo de Nivel de Servicio de tiempo de actividad y baja latencia. Para cargas de trabajo de gran volumen por encima de los niveles de uso especificados en estándar y estándar global, puede experimentar una mayor variación de latencia. En el caso de los clientes que requieren la varianza de latencia menor en el uso de cargas de trabajo de gran tamaño, se recomienda aprovechar los tipos de implementación aprovisionados.

Nuestras implementaciones globales serán la primera ubicación para todos los nuevos modelos y características. En función del volumen de llamadas, los clientes con requisitos de varianza de gran volumen y baja latencia deben tener en cuenta nuestros tipos de implementación aprovisionados.

Las implementaciones de zona de datos aprovechan la infraestructura global de Azure para enrutar dinámicamente el tráfico de los clientes al centro de datos con la mejor disponibilidad para las solicitudes de inferencia del cliente dentro de la zona de datos definida por Microsoft. Colocado entre nuestras ofertas de implementación global y geografía de Azure, las implementaciones de zona de datos proporcionan límites de cuota elevados al tiempo que mantienen el procesamiento de datos dentro de la zona de datos especificada por Microsoft. Los datos almacenados en reposo seguirán estando en la geografía del recurso de Azure OpenAI (por ejemplo, para un recurso de Azure OpenAI creado en la región de Azure central de Suecia, la geografía de Azure es Suecia).

Si el recurso de Azure OpenAI usado en la implementación de la zona de datos se encuentra en Estados Unidos, los datos se procesarán en Estados Unidos. Si el recurso de Azure OpenAI usado en la implementación de la zona de datos se encuentra en una nación miembro de la Unión Europea, los datos se procesarán en las zonas geográficas de la Nación miembro de la Unión Europea. Para todos los tipos de implementación del servicio Azure OpenAI, los datos almacenados en reposo seguirán estando en la geografía del recurso de Azure OpenAI. Los compromisos de cumplimiento y procesamiento de datos de Azure siguen siendo aplicables.

Tipos de implementación

Azure OpenAI ofrece tres tipos de implementaciones. Estos proporcionan un nivel variado de funcionalidades que proporcionan ventajas y desventajas: rendimiento, acuerdos de nivel de servicio y precio. A continuación se muestra un resumen de las opciones seguidas de una descripción más detallada de cada una.

Oferta	Global-Batch	Estándar global	Aprovisionado global	Estándar	aprovisionado
Más adecuado para	Puntuación sin conexión Cargas de trabajo que no son sensibles a la latencia y que se pueden completar en horas.	Lugar de inicio recomendado para los clientes. Global-Standard tendrá la cuota predeterminada más alta y un mayor número de modelos disponibles que Standard.	Puntuación en tiempo real para un gran volumen coherente. Incluye los mayores compromisos y límites.	Para los clientes con requisitos de residencia de datos. Optimizado para un volumen bajo a medio.	Puntuación en tiempo real para un gran volumen coherente. Incluye los mayores compromisos y límites. Para los casos de uso con requisitos de residencia de datos
Funcionamiento	Procesamiento sin conexión mediante archivos	El tráfico se puede enrutar a cualquier parte del mundo	El tráfico se puede enrutar a cualquier parte del mundo
Introducción	Global-Batch	Implementación de modelo	Incorporación aprovisionada	Implementación de modelo	Incorporación aprovisionada
Costee	Opción menos costosa Costo 50 % inferior a los precios de Global Standard. Acceso a todos los modelos nuevos con asignaciones de cuota más grandes.	Precios de implementación global	Puede experimentar ahorros de costos para un uso coherente	Precios regionales	Puede experimentar ahorros de costos para un uso coherente
Resultado	Descuento significativo en comparación con Global Standard	Acceso sencillo a todos los nuevos modelos con los límites de pago por llamada predeterminados más altos. Los clientes con un uso elevado de volumen pueden ver una mayor variabilidad de latencia	Acceso a un rendimiento alto y predecible en toda la infraestructura global de Azure. Determine el rendimiento por PTU mediante la calculadora de capacidad proporcionada.	Acceso sencillo con Acuerdo de Nivel de Servicio en la disponibilidad. Optimizado para cargas de trabajo de bajo a medio volumen con alta ráfaga. Los clientes con un volumen alto pueden experimentar una mayor variabilidad de latencia.	Acceso regional con un rendimiento muy alto y predecible. Determinación del rendimiento por PTU mediante la calculadora de capacidad de proporcionada
Lo que no se obtiene	❌Rendimiento de llamadas en tiempo real ❌Garantía de procesamiento de datos Los datos almacenados en reposo permanecen en la geografía de Azure designada, mientras que los datos se pueden procesar para la inferencia en cualquier ubicación de Azure OpenAI. Más información sobre la residencia de datos	❌Garantía de procesamiento de datos Los datos almacenados en reposo permanecen en la geografía de Azure designada, mientras que los datos se pueden procesar para la inferencia en cualquier ubicación de Azure OpenAI. Más información sobre la residencia de datos	❌Flexibilidad de pago por llamada ❌Garantía de procesamiento de datos Los datos almacenados en reposo permanecen en la geografía de Azure designada, mientras que los datos se pueden procesar para la inferencia en cualquier ubicación de Azure OpenAI. Más información sobre la residencia de datos	❌Gran volumen con baja latencia coherente	❌Flexibilidad de pago por llamada
Latencia por llamada	No aplicable (proceso asincrónico basado en archivos)	Optimizado para llamadas en tiempo real y uso de volumen bajo a medio. Los clientes con un uso elevado de volumen pueden ver una mayor variabilidad de latencia. Umbral establecido por modelo	Optimizado para llamadas en tiempo real y uso de volumen alto.	Optimizado para llamadas en tiempo real y uso de volumen bajo a medio. Los clientes con un uso elevado de volumen pueden ver una mayor variabilidad de latencia. Umbral establecido por modelo	Optimizado para llamadas en tiempo real y uso de volumen alto.
Nombre de Sku en de código	`GlobalBatch`	`GlobalStandard`	`GlobalProvisionedManaged`	`Standard`	`ProvisionedManaged`
Modelo de facturación	Pago por token	Pago por token	Facturación por horas con posibilidad de adquirir reservas mensuales o anuales	Pago por token	Facturación por horas con posibilidad de adquirir reservas mensuales o anuales

Estándar global

Importante

Los datos almacenados en reposo permanecen en la geografía de Azure designada, mientras que los datos se pueden procesar para la inferencia en cualquier ubicación de Azure OpenAI. Obtenga más información sobre la retención de datos.

Las implementaciones globales están disponibles en los mismos recursos de Azure OpenAI que los tipos de implementación no globales, pero permiten aprovechar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos con la mejor disponibilidad para cada solicitud. El estándar global proporciona la cuota predeterminada más alta y elimina la necesidad de equilibrar la carga entre varios recursos.

Los clientes con un volumen alto pueden experimentar una mayor variabilidad de latencia. El umbral se establece por modelo. Más información en la página de cuotas. En el caso de las aplicaciones que requieren la varianza de latencia más baja en el uso de cargas de trabajo grandes, se recomienda comprar el rendimiento aprovisionado.

Aprovisionado global

Importante

Las implementaciones globales están disponibles en los mismos recursos de Azure OpenAI que los tipos de implementación no globales, pero permiten aprovechar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos con la mejor disponibilidad para cada solicitud. Las implementaciones aprovisionadas globales proporcionan una capacidad de procesamiento de modelos reservada para un rendimiento alto y predecible mediante la infraestructura global de Azure.

Lote global

Importante

Lote global se ha diseñado para controlar las tareas de procesamiento a gran escala y de alto volumen de forma eficaz. Procese grupos asincrónicos de solicitudes con cuota independiente, con una solución alternativa de destino de 24 horas y un costo del 50 % menos que el estándar global. Con el procesamiento por lotes, en lugar de enviar una solicitud cada vez, se envía un gran número de solicitudes en un único archivo. Las solicitudes por lotes globales tienen una cuota de tokens en cola independiente, lo que evita cualquier interrupción de las cargas de trabajo en línea.

Los siguientes son algunos de los principales casos de uso:

Procesamiento de datos a gran escala: analice rápidamente conjuntos de datos extensos en paralelo.
Generación de contenido: cree grandes volúmenes de texto, como descripciones de productos o artículos.
Revisión y resumen de documentos: automatice la revisión y el resumen de documentos largos.
Automatización del soporte al cliente: controle numerosas consultas simultáneamente para respuestas más rápidas.
Extracción y análisis de datos: extraiga y analice información de grandes cantidades de datos no estructurados.
Tareas de procesamiento de lenguaje natural (NLP): realice tareas como análisis de sentimiento o traducción en grandes conjuntos de datos.
Marketing y personalización: genere contenido personalizado y recomendaciones a escala.

Estándar de zona de datos

Importante

Los datos almacenados en reposo permanecen en la geografía de Azure designada, mientras que los datos se pueden procesar para la inferencia en cualquier ubicación de Azure OpenAI dentro de la zona de datos especificada por Microsoft. Obtenga más información sobre la retención de datos.

Las implementaciones estándar de zona de datos están disponibles en el mismo recurso de Azure OpenAI que todos los demás tipos de implementación de Azure OpenAI, pero permiten aprovechar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos dentro de la zona de datos definida por Microsoft con la mejor disponibilidad para cada solicitud. El estándar de zona de datos proporciona cuotas predeterminadas más altas que los tipos de implementación basados en geografía de Azure.

Los clientes con un volumen alto pueden experimentar una mayor variabilidad de latencia. El umbral se establece por modelo. Consulte la página Cuotas y límites para obtener más información. En el caso de las cargas de trabajo que requieren una varianza de baja latencia en un gran volumen, se recomienda aprovechar las ofertas de implementación aprovisionadas.

Estándar

Las implementaciones estándar proporcionan un modelo de facturación de pago por llamada en el modelo elegido. Proporciona la manera más rápida de empezar a trabajar, ya que solo paga por lo que consume. Los modelos disponibles en cada región, así como el rendimiento pueden ser limitados.

Las implementaciones estándar están optimizadas para cargas de trabajo de bajo a medio volumen con alta expansión. Los clientes con un volumen alto pueden experimentar una mayor variabilidad de latencia.

aprovisionado

Las implementaciones aprovisionadas permiten especificar la cantidad de rendimiento que necesita en una implementación. A continuación, el servicio asigna la capacidad de procesamiento del modelo necesaria y garantiza que está listo para el usuario. El rendimiento se define en términos de unidades de procesamiento aprovisionadas (PTU), que es una forma normalizada de representar una cantidad de rendimiento para una implementación. Cada par de modelo y versión requiere diferentes cantidades de PTU para su implementación y aporta diferentes cantidades de rendimiento por PTU. Obtenga más información en el artículo Conceptos de rendimiento aprovisionado.

Cómo deshabilitar el acceso a implementaciones globales en su suscripción

Azure Policy ayuda a aplicar los estándares de la organización y a evaluar el cumplimiento a escala. Mediante su panel de cumplimiento, proporciona una vista agregada para evaluar el estado general del entorno, con la posibilidad de explorar en profundidad hasta el nivel de recurso y directiva. También ayuda al cumplimiento de los recursos gracias a la corrección masiva de los recursos existentes y la corrección automática de nuevos recursos. Obtenga más información sobre Azure Policy y controles integrados específicos para los servicios de inteligencia artificial.

Puede usar la siguiente directiva para deshabilitar el acceso a las implementaciones estándar globales de Azure OpenAI. Para deshabilitar el acceso a implementaciones aprovisionadas globales o por lotes globales de Azure, reemplace GlobalStandard por GlobalProvisionedManaged o GlobalBatch en el nombre de SKU previsto.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Implementación de modelos

Para obtener información sobre cómo crear recursos e implementar modelos, consulte la guía de creación de recursos.

Compartir a través de

Tipos de implementación de Azure OpenAI

Ubicaciones de procesamiento de datos de implementación de Azure OpenAI

Tipos de implementación

Estándar global

Aprovisionado global

Lote global

Estándar de zona de datos

Estándar

aprovisionado

Cómo deshabilitar el acceso a implementaciones globales en su suscripción

Implementación de modelos

Consulte también

Comentarios

Recursos adicionales