Creare una distribuzione di OpenAI di Azure

Articolo
10/31/2024

OpenAI di Azure offre ai clienti opzioni per la struttura di hosting che si adattano ai criteri di business e di utilizzo. Il servizio offre due tipi principali di distribuzioni: standard e con provisioning. Per un determinato tipo di distribuzione, i clienti possono allineare i carichi di lavoro ai requisiti di elaborazione dei dati scegliendo un'area dati di Azure (Standard o Provisioned), l'area dati specificata da Microsoft (DataZone-Standard) o le opzioni di elaborazione Globale (Global-Standard o Global Provisioned-Managed).

Tutte le distribuzioni possono eseguire esattamente le stesse operazioni di inferenza, ma la fatturazione, la scalabilità e le prestazioni sono sostanzialmente diverse. Come parte della progettazione della soluzione, è necessario prendere due decisioni chiave:

Posizione per l'elaborazione dati
Volume di chiamata

Percorsi di elaborazione dei dati di distribuzione OpenAI di Azure

Per le distribuzioni standard, sono disponibili tre opzioni per il tipo di distribuzione tra cui scegliere: globale, zona dati e area geografica di Azure. Per le distribuzioni di cui è stato effettuato il provisioning, sono disponibili due opzioni per il tipo di distribuzione tra cui scegliere: globale e area geografica di Azure. Lo standard globale è il punto di partenza consigliato.

Le distribuzioni globali sfruttano l'infrastruttura globale di Azure per instradare dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente. Ciò significa che si otterranno i limiti di velocità effettiva iniziali più elevati e la migliore disponibilità dei modelli con Globale pur continuando a usufruire del contratto di servizio per il tempo di attività e la bassa latenza. Per carichi di lavoro con volumi elevati superiori ai livelli di utilizzo specificati in Standard e Standard globale, è possibile che la variazione della latenza risulti maggiore. Per i clienti che richiedono la varianza di latenza inferiore a un utilizzo elevato del carico di lavoro, è consigliabile sfruttare i tipi di distribuzione di cui è stato effettuato il provisioning.

Le distribuzioni globali saranno la prima posizione per tutti i nuovi modelli e funzionalità. A seconda del volume delle chiamate, i clienti con volumi elevati e requisiti di varianza a bassa latenza devono considerare i tipi di distribuzione di cui è stato effettuato il provisioning.

Le distribuzioni della zona dati sfruttano l'infrastruttura globale di Azure per instradare dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente all'interno dell'area dati definita da Microsoft. Posizionati tra le offerte di distribuzione geografica di Azure e globale, le distribuzioni di zone dati offrono limiti di quota elevati mantenendo al tempo stesso l'elaborazione dei dati all'interno dell'area dati specificata da Microsoft. I dati archiviati inattivi continueranno a rimanere nella geografia della risorsa OpenAI di Azure( ad esempio, per una risorsa OpenAI di Azure creata nell'area di Azure centrale svezia, l'area geografica di Azure di Azure è Svezia).

Se la risorsa OpenAI di Azure usata nella distribuzione dell'area dati si trova nella Stati Uniti, i dati verranno elaborati all'interno del Stati Uniti. Se la risorsa OpenAI di Azure usata nella distribuzione della zona dati si trova in una nazione membro dell'Unione europea, i dati verranno elaborati all'interno delle aree geografiche nazione membro dell'Unione europea. Per tutti i tipi di distribuzione del servizio OpenAI di Azure, tutti i dati archiviati inattivi continueranno a rimanere nella geografia della risorsa OpenAI di Azure. Gli impegni di elaborazione e conformità dei dati di Azure rimangono applicabili.

Tipi distribuzione

OpenAI di Azure offre tre tipi di distribuzioni. Questi offrono vari livelli di funzionalità che comportano compromessi su velocità effettiva, contratti di servizio e prezzo. Di seguito è riportato un riepilogo delle opzioni, seguito da una descrizione più approfondita di ognuna.

Offerta	Global-Batch	Standard globale	Con provisioning globale	Standard	Provisioning eseguito
Ideale per	Assegnazione dei punteggi offline I carichi di lavoro che non sono sensibili alla latenza e possono essere completati in ore.	Punto di partenza consigliato per i clienti. Global-Standard avrà la quota predefinita più elevata e un numero maggiore di modelli disponibili rispetto a Standard.	Assegnazione dei punteggi in tempo reale per volumi coerenti di grandi dimensioni. Include gli impegni e i limiti più elevati.	Per i clienti con requisiti di residenza dei dati. Ottimizzato per un volume da basso a medio.	Assegnazione dei punteggi in tempo reale per volumi coerenti di grandi dimensioni. Include gli impegni e i limiti più elevati. Per i casi d’uso che prevedono requisiti di residenza dei dati
Funzionamento	Elaborazione offline tramite file	Il traffico può essere instradato ovunque nel mondo	Il traffico può essere instradato ovunque nel mondo
Informazioni generali	Global-Batch	Distribuzione di modelli	Onboarding con provisioning	Distribuzione di modelli	Onboarding con provisioning
Costii	Opzione meno costosa Costo inferiore del 50% rispetto ai prezzi standard globali. Accesso a tutti i nuovi modelli con allocazioni di quote maggiori.	Prezzi della distribuzione globale	Può verificarsi un risparmio sui costi per un utilizzo costante	Prezzi a livello di area	Può verificarsi un risparmio sui costi per un utilizzo costante
Cosa si ottiene	Sconto significativo rispetto allo standard globale	Facile accesso a tutti i nuovi modelli con limiti di pagamento per chiamata predefiniti più elevati. I clienti con un utilizzo elevato del volume possono rilevare una variabilità di latenza più elevata	Accesso a una velocità effettiva elevata e prevedibile nell'infrastruttura globale di Azure. Determinare la velocità effettiva per le unità elaborate con provisioning usando il calcolatore della capacità fornito.	Facile accesso con contratto di servizio sulla disponibilità. Ottimizzato per carichi di lavoro con volumi da bassi a medi con possibilità di burst elevata. I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza.	Accesso a livello di area con velocità effettiva molto elevata e prevedibile. Determinare la velocità effettiva per PTU usando il calcolatore della capacità fornito
Cosa non si ottiene	❌Prestazioni delle chiamate in tempo reale ❌Garanzia di elaborazione dei dati I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di OpenAI di Azure. Altre informazioni sulla residenza dei dati	❌Garanzia di elaborazione dei dati I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di OpenAI di Azure. Altre informazioni sulla residenza dei dati	❌Flessibilità con pagamento in base alla chiamata ❌Garanzia di elaborazione dei dati I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di OpenAI di Azure. Altre informazioni sulla residenza dei dati	❌Un volume elevato con bassa latenza costante	❌Flessibilità con pagamento in base alla chiamata
Latenza per chiamata	Non applicabile (processo asincrono basato su file)	Ottimizzato per le chiamate in tempo reale e l'utilizzo da basso a medio del volume. I clienti con un utilizzo elevato del volume possono rilevare una variabilità di latenza più elevata. Soglia impostata per modello	Ottimizzato per le chiamate in tempo reale e l'utilizzo ad alto volume.	Ottimizzato per le chiamate in tempo reale e l'utilizzo da basso a medio del volume. I clienti con un utilizzo elevato del volume possono rilevare una variabilità di latenza più elevata. Soglia impostata per modello	Ottimizzato per le chiamate in tempo reale e l'utilizzo ad alto volume.
Nome SKU nel codice	`GlobalBatch`	`GlobalStandard`	`GlobalProvisionedManaged`	`Standard`	`ProvisionedManaged`
Modello di fatturazione	Pagamento in base al token	Pagamento in base al token	Fatturazione oraria con acquisto facoltativo di prenotazioni mensili o annuali	Pagamento in base al token	Fatturazione oraria con acquisto facoltativo di prenotazioni mensili o annuali

Standard globale

Importante

I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di OpenAI di Azure. Altre informazioni sulla residenza dei dati.

Le distribuzioni globali sono disponibili nelle stesse risorse OpenAI di Azure dei tipi di distribuzione non globali, ma consentono di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center con la migliore disponibilità per ogni richiesta. Lo standard globale fornisce la quota predefinita più elevata ed elimina la necessità di bilanciare il carico tra più risorse.

I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza. La soglia viene impostata per modello. Per altre informazioni, vedere la pagina sulle quote. Per le applicazioni che richiedono la varianza di latenza inferiore a un utilizzo elevato del carico di lavoro, è consigliabile acquistare la velocità effettiva con provisioning.

Con provisioning globale

Importante

Le distribuzioni globali sono disponibili nelle stesse risorse OpenAI di Azure dei tipi di distribuzione non globali, ma consentono di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center con la migliore disponibilità per ogni richiesta. Le distribuzioni con provisioning globale offrono capacità di elaborazione dei modelli riservata per una velocità effettiva elevata e prevedibile tramite l'infrastruttura globale di Azure.

Batch globale

Importante

Batch globale è progettato per gestire in modo efficiente le attività di elaborazione su larga scala e con volumi elevati. Elaborare gruppi asincroni di richieste con quota separata, con turnaround di destinazione di 24 ore, con un costo inferiore del 50% rispetto allo standard globale. Con l'elaborazione in batch, anziché inviare una richiesta alla volta si inviano diverse richieste in un singolo file. Le richieste in batch globale hanno una quota di token accodata separata evitando eventuali interruzioni dei carichi di lavoro online.

I principali casi d'uso sono:

Elaborazione dei dati su larga scala: analizzare rapidamente grandi set di dati in parallelo.
Generazione di contenuti: creare grandi volumi di testo, ad esempio descrizioni di prodotti o articoli.
Revisione e riepilogo dei documenti: automatizzare la revisione e il riepilogo dei documenti lunghi.
Automazione del supporto tecnico per i clienti: gestire contemporaneamente numerose query per risposte più veloci.
Estrazione e analisi dei dati: estrarre e analizzare informazioni da grandi quantità di dati non strutturati.
Attività di elaborazione del linguaggio naturale (NLP): eseguire attività come l'analisi o la traduzione del sentiment su set di dati di grandi dimensioni.
Marketing e personalizzazione: generazione di contenuti e raccomandazioni personalizzati su larga scala.

Standard della zona dati

Importante

I dati archiviati inattivi rimangono nell'area geografica di Azure designata, mentre i dati possono essere elaborati per l'inferenza in qualsiasi posizione di Azure OpenAI all'interno dell'area dati specificata da Microsoft. Altre informazioni sulla residenza dei dati.

Le distribuzioni standard della zona dati sono disponibili nella stessa risorsa OpenAI di Azure di tutti gli altri tipi di distribuzione OpenAI di Azure, ma consentono di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center all'interno della zona dati definita da Microsoft con la migliore disponibilità per ogni richiesta. Lo standard della zona dati offre quote predefinite più elevate rispetto ai tipi di distribuzione basati sull'area geografica di Azure.

I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza. La soglia viene impostata per modello. Per altre informazioni, vedere la pagina Quote e limiti . Per i carichi di lavoro che richiedono una varianza a bassa latenza in un volume elevato, è consigliabile sfruttare le offerte di distribuzione di cui è stato effettuato il provisioning.

Standard

Le distribuzioni standard forniscono un modello di fatturazione con pagamento in base alla chiamata nel modello scelto. Fornisce il modo più rapido per iniziare, poiché si paga solo per ciò che si utilizza. I modelli disponibili in ogni area e la velocità effettiva possono essere limitati.

Le distribuzioni standard sono ottimizzate per carichi di lavoro con volumi da bassi a medi con un'elevata possibilità di burst. I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza.

Sottoposto a provisioning

Le distribuzioni con provisioning consentono di specificare la quantità di velocità effettiva necessaria in una distribuzione. Il servizio alloca quindi la capacità di elaborazione del modello necessaria e garantisce che sia pronta per l'utente. La velocità effettiva è definita in termini di unità elaborate con provisioning (PTU), ovvero un modo normalizzato per rappresentare la velocità effettiva per la distribuzione. Ogni coppia versione-modello richiede quantità diverse di PTU per distribuire e fornire quantità diverse di velocità effettiva per PTU. Per altre informazioni, vedere l'articolo Concetti relativi alla velocità effettiva con provisioning.

Come disabilitare l'accesso alle distribuzioni globali nella sottoscrizione

Criteri di Azure consente di imporre standard aziendali e di valutare la conformità su larga scala. Il dashboard di conformità fornisce una visualizzazione aggregata per valutare lo stato complessivo dell'ambiente, con la possibilità di eseguire il drill-down con granularità per risorsa e per criterio. Consente inoltre di ottenere la conformità delle risorse tramite la correzione in blocco per le risorse esistenti e la correzione automatica per le nuove risorse. Altre informazioni su Criteri di Azure e sui controlli predefiniti specifici per i servizi di intelligenza artificiale.

È possibile usare i criteri seguenti per disabilitare l'accesso alle distribuzioni standard globali di OpenAI di Azure. Per disabilitare l'accesso alle distribuzioni batch con provisioning globale o globali di Azure, sostituire GlobalStandard con GlobalProvisionedManaged o GlobalBatch per il nome dello SKU previsto.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Distribuire i modelli

Per informazioni sulla creazione di risorse e sulla distribuzione dei modelli, vedere la guida alla creazione di risorse.

Condividi tramite

Creare una distribuzione di OpenAI di Azure

Percorsi di elaborazione dei dati di distribuzione OpenAI di Azure

Tipi distribuzione

Standard globale

Con provisioning globale

Batch globale

Standard della zona dati

Standard

Sottoposto a provisioning

Come disabilitare l'accesso alle distribuzioni globali nella sottoscrizione

Distribuire i modelli

Vedi anche

Commenti e suggerimenti

Risorse aggiuntive