Creare una distribuzione di OpenAI di Azure

Articolo
09/23/2024

OpenAI di Azure offre ai clienti opzioni per la struttura di hosting che si adattano ai criteri di business e di utilizzo. Il servizio offre due tipi principali di distribuzione: standard e con provisioning. La distribuzione standard è disponibile con un'opzione di distribuzione globale, in modo da instradare il traffico a livello globale per offrire una velocità effettiva più elevata. Il provisioning è disponibile anche con un'opzione di distribuzione globale che consente ai clienti di acquistare e distribuire unità elaborate con provisioning nell'infrastruttura globale di Azure. Tutte le distribuzioni possono eseguire esattamente le stesse operazioni di inferenza, ma la fatturazione, la scalabilità e le prestazioni sono sostanzialmente diverse. Come parte della progettazione della soluzione, è necessario prendere due decisioni chiave:

Esigenze di residenza dei dati:confronto tra risorse globali e regionali
Volume di chiamata: confronto tra standard e con provisioning

Tipi di distribuzione globali e a livello di area

Per le distribuzioni standard e con provisioning è possibile scegliere uno dei due tipi di configurazioni all'interno della risorsa, ovvero Globale o A livello di area. Lo standard globale è il punto di partenza consigliato.

Le distribuzioni globali sfruttano l'infrastruttura globale di Azure e instradano dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente. Ciò significa che si otterranno i limiti di velocità effettiva iniziali più elevati e la migliore disponibilità dei modelli con Globale pur continuando a usufruire del contratto di servizio per il tempo di attività e la bassa latenza. Per carichi di lavoro con volumi elevati superiori ai livelli di utilizzo specificati in Standard e Standard globale, è possibile che la variazione della latenza risulti maggiore. Per i clienti che richiedono la varianza di latenza inferiore a un utilizzo elevato del carico di lavoro, è consigliabile acquistare la velocità effettiva con provisioning.

Le distribuzioni globali saranno la prima posizione per tutti i nuovi modelli e funzionalità. I clienti con requisiti di velocità effettiva molto elevati devono considerare l'offerta di distribuzione con provisioning.

Tipi distribuzione

OpenAI di Azure offre tre tipi di distribuzioni. Questi offrono vari livelli di funzionalità che comportano compromessi su velocità effettiva, contratti di servizio e prezzo. Di seguito è riportato un riepilogo delle opzioni, seguito da una descrizione più approfondita di ognuna.

Offerta	Global-Batch	Standard globale	Con provisioning globale	Standard	Provisioning eseguito
Ideale per	Assegnazione dei punteggi offline I carichi di lavoro che non sono sensibili alla latenza e possono essere completati in ore. Per i casi d'uso che non hanno requisiti di residenza per l'elaborazione dei dati.	Punto di partenza consigliato per i clienti. Global-Standard avrà la quota predefinita più elevata e un numero maggiore di modelli disponibili rispetto a Standard.	Assegnazione dei punteggi in tempo reale per volumi coerenti di grandi dimensioni. Include gli impegni e i limiti più elevati. Per i casi d'uso che non prevedono requisiti di residenza per l'elaborazione dei dati.	Per i clienti con requisiti di residenza dei dati. Ottimizzato per un volume da basso a medio.	Assegnazione dei punteggi in tempo reale per volumi coerenti di grandi dimensioni. Include gli impegni e i limiti più elevati. Per i casi d’uso che prevedono requisiti di residenza dei dati
Funzionamento	Elaborazione offline tramite file	Il traffico può essere instradato ovunque nel mondo	Il traffico può essere instradato ovunque nel mondo
Informazioni generali	Global-Batch	Distribuzione di modelli	Onboarding con provisioning	Distribuzione di modelli	Onboarding con provisioning
Costii	Opzione meno costosa Costo inferiore del 50% rispetto ai prezzi standard globali. Accesso a tutti i nuovi modelli con allocazioni di quote maggiori.	Prezzi della distribuzione globale	Può verificarsi un risparmio sui costi per un utilizzo costante	Prezzi a livello di area	Può verificarsi un risparmio sui costi per un utilizzo costante
Cosa si ottiene	Sconto significativo rispetto allo standard globale	Facile accesso a tutti i nuovi modelli con limiti di pagamento per chiamata predefiniti più elevati. I clienti con un utilizzo elevato del volume possono rilevare una variabilità di latenza più elevata	Accesso a una velocità effettiva elevata e prevedibile nell'infrastruttura globale di Azure. Determinare la velocità effettiva per le unità elaborate con provisioning usando il calcolatore della capacità fornito.	Facile accesso con contratto di servizio sulla disponibilità. Ottimizzato per carichi di lavoro con volumi da bassi a medi con possibilità di burst elevata. I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza.	Accesso a livello di area con velocità effettiva molto elevata e prevedibile. Determinare la velocità effettiva per PTU usando il calcolatore della capacità fornito
Cosa non si ottiene	❌Prestazioni delle chiamate in tempo reale ❌Garanzia di elaborazione dei dati I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di OpenAI di Azure. Altre informazioni sulla residenza dei dati	❌Garanzia di elaborazione dei dati I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di OpenAI di Azure. Altre informazioni sulla residenza dei dati	❌Flessibilità con pagamento in base alla chiamata ❌Garanzia di elaborazione dei dati I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di OpenAI di Azure. Altre informazioni sulla residenza dei dati	❌Un volume elevato con bassa latenza costante	❌Flessibilità con pagamento in base alla chiamata
Latenza per chiamata	Non applicabile (processo asincrono basato su file)	Ottimizzato per le chiamate in tempo reale e l'utilizzo da basso a medio del volume. I clienti con un utilizzo elevato del volume possono rilevare una variabilità di latenza più elevata. Soglia impostata per modello	Ottimizzato per le chiamate in tempo reale e l'utilizzo ad alto volume.	Ottimizzato per le chiamate in tempo reale e l'utilizzo da basso a medio del volume. I clienti con un utilizzo elevato del volume possono rilevare una variabilità di latenza più elevata. Soglia impostata per modello	Ottimizzato per le chiamate in tempo reale e l'utilizzo ad alto volume.
Nome SKU nel codice	`GlobalBatch`	`GlobalStandard`	`GlobalProvisionedManaged`	`Standard`	`ProvisionedManaged`
Modello di fatturazione	Pagamento in base al token	Pagamento in base al token	Fatturazione oraria con acquisto facoltativo di prenotazioni mensili o annuali	Pagamento in base al token	Fatturazione oraria con acquisto facoltativo di prenotazioni mensili o annuali

Sottoposto a provisioning

Le distribuzioni con provisioning consentono di specificare la quantità di velocità effettiva necessaria in una distribuzione. Il servizio alloca quindi la capacità di elaborazione del modello necessaria e garantisce che sia pronta per l'utente. La velocità effettiva è definita in termini di unità elaborate con provisioning (PTU), ovvero un modo normalizzato per rappresentare la velocità effettiva per la distribuzione. Ogni coppia versione-modello richiede quantità diverse di PTU per distribuire e fornire quantità diverse di velocità effettiva per PTU. Per altre informazioni, vedere l'articolo Concetti relativi alla velocità effettiva con provisioning.

Standard

Le distribuzioni standard forniscono un modello di fatturazione con pagamento in base alla chiamata nel modello scelto. Fornisce il modo più rapido per iniziare, poiché si paga solo per ciò che si utilizza. I modelli disponibili in ogni area e la velocità effettiva possono essere limitati.

Le distribuzioni standard sono ottimizzate per carichi di lavoro con volumi da bassi a medi con un'elevata possibilità di burst. I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza.

Standard globale

Importante

I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di OpenAI di Azure. Altre informazioni sulla residenza dei dati.

Le distribuzioni globali sono disponibili nelle stesse risorse OpenAI di Azure dei tipi di distribuzione non globali, ma consentono di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center con la migliore disponibilità per ogni richiesta. Lo standard globale fornisce la quota predefinita più elevata ed elimina la necessità di bilanciare il carico tra più risorse.

I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza. La soglia viene impostata per modello. Per altre informazioni, vedere la pagina sulle quote. Per le applicazioni che richiedono la varianza di latenza inferiore a un utilizzo elevato del carico di lavoro, è consigliabile acquistare la velocità effettiva con provisioning.

Con provisioning globale

Importante

Le distribuzioni globali sono disponibili nelle stesse risorse OpenAI di Azure dei tipi di distribuzione non globali, ma consentono di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center con la migliore disponibilità per ogni richiesta. Le distribuzioni con provisioning globale offrono capacità di elaborazione dei modelli riservata per una velocità effettiva elevata e prevedibile tramite l'infrastruttura globale di Azure.

Batch globale

Importante

Batch globale è progettato per gestire in modo efficiente le attività di elaborazione su larga scala e con volumi elevati. Elaborare gruppi asincroni di richieste con quota separata, con turnaround di destinazione di 24 ore, con un costo inferiore del 50% rispetto allo standard globale. Con l'elaborazione in batch, anziché inviare una richiesta alla volta si inviano diverse richieste in un singolo file. Le richieste in batch globale hanno una quota di token accodata separata evitando eventuali interruzioni dei carichi di lavoro online.

I principali casi d'uso sono:

Elaborazione dei dati su larga scala: analizzare rapidamente grandi set di dati in parallelo.
Generazione di contenuti: creare grandi volumi di testo, ad esempio descrizioni di prodotti o articoli.
Revisione e riepilogo dei documenti: automatizzare la revisione e il riepilogo dei documenti lunghi.
Automazione del supporto tecnico per i clienti: gestire contemporaneamente numerose query per risposte più veloci.
Estrazione e analisi dei dati: estrarre e analizzare informazioni da grandi quantità di dati non strutturati.
Attività di elaborazione del linguaggio naturale (NLP): eseguire attività come l'analisi o la traduzione del sentiment su set di dati di grandi dimensioni.
Marketing e personalizzazione: genera contenuti e raccomandazioni personalizzati su larga scala.

Come disabilitare l'accesso alle distribuzioni globali nella sottoscrizione

Criteri di Azure consente di imporre standard aziendali e di valutare la conformità su larga scala. Il dashboard di conformità fornisce una visualizzazione aggregata per valutare lo stato complessivo dell'ambiente, con la possibilità di eseguire il drill-down con granularità per risorsa e per criterio. Consente inoltre di ottenere la conformità delle risorse tramite la correzione in blocco per le risorse esistenti e la correzione automatica per le nuove risorse. Altre informazioni su Criteri di Azure e sui controlli predefiniti specifici per i servizi di intelligenza artificiale.

È possibile usare i criteri seguenti per disabilitare l'accesso alle distribuzioni standard globali di OpenAI di Azure. Per disabilitare l'accesso alle distribuzioni batch con provisioning globale o globali di Azure, sostituire GlobalStandard con GlobalProvisionedManaged o GlobalBatch per il nome dello SKU previsto.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Distribuire i modelli

Per informazioni sulla creazione di risorse e sulla distribuzione dei modelli, vedere la guida alla creazione di risorse.

Condividi tramite

Creare una distribuzione di OpenAI di Azure

Tipi di distribuzione globali e a livello di area

Tipi distribuzione

Sottoposto a provisioning

Standard

Standard globale

Con provisioning globale

Batch globale

Come disabilitare l'accesso alle distribuzioni globali nella sottoscrizione

Distribuire i modelli

Vedi anche

Commenti e suggerimenti

Risorse aggiuntive