Onboarding di unità elaborate con provisioning

Questo articolo illustra il processo di onboarding in unità elaborate con provisioning (PTU, Provisioned Throughput Units). Dopo aver completato l'onboarding iniziale, è consigliabile fare riferimento alla guida introduttiva sulle PTU.

Quando usare le unità elaborate con provisioning (PTU)

È consigliabile passare da pagamento in base al consumo alla velocità effettiva con provisioning quando si hanno requisiti di velocità effettiva ben definiti e prevedibili. In genere, ciò si verifica quando l'applicazione è pronta per la produzione o è già stata distribuita nell'ambiente di produzione ed è disponibile una conoscenza del traffico previsto. In questo modo gli utenti possono prevedere accuratamente la capacità necessaria ed evitare la fatturazione imprevista.

Scenari PTU tipici

  • Applicazione pronta per la produzione o in produzione.
  • Un'applicazione con aspettative di capacità/utilizzo prevedibili.
  • Un'applicazione ha requisiti sensibili in tempo reale/latenza.

Nota

Nei casi d'uso delle chiamate di funzione e dell'agente, l'utilizzo dei token può essere variabile. È necessario comprendere in dettaglio l'utilizzo dei token al minuto previsti prima della migrazione dei carichi di lavoro a PTU.

Dimensionamento e stima: provisioning e provisioning globale

Determinare la quantità corretta di velocità effettiva con provisioning o PTU, è un passaggio essenziale per ottimizzare le prestazioni e i costi. Questa sezione descrive come usare lo strumento di pianificazione della capacità OpenAI di Azure. Lo strumento fornisce una stima della PTU necessaria per soddisfare le esigenze del carico di lavoro.

Stimare la velocità effettiva con provisioning e i costi

Per ottenere una stima rapida per il carico di lavoro, aprire Capacity Planner in Azure OpenAI Studio. Lo strumento Capacity Planner si trova in Gestione>Quote>Con provisioning.

L'opzione Con provisioning e Capacity Planner sono disponibili solo in determinate aree all'interno del riquadro Quota, se non viene visualizzata questa opzione impostando l'area quota su Svezia centrale, questa opzione sarà disponibile. Immettere i parametri seguenti in base al carico di lavoro.

Input Descrizione
Modello Modello OpenAI che si prevede di usare. Ad esempio: GPT-4
Versione Versione del modello che si prevede di usare, ad esempio 0614
Picco di chiamate al minuto Numero di chiamate al minuto che si prevede di inviare al modello
Token nella chiamata di richiesta Numero di token nella richiesta di ogni chiamata al modello. Le chiamate con richieste più grandi usano più della distribuzione PTU. Attualmente questo calcolatore presuppone un singolo valore di richiesta, quindi per i carichi di lavoro con varianza ampia. È consigliabile eseguire il benchmarking della distribuzione sul traffico per determinare la stima più accurata delle PTU necessarie per la distribuzione.
Token nella risposta del modello Numero di token generati da ogni chiamata al modello. Le chiamate con dimensioni di generazione maggiori utilizzeranno più della distribuzione PTU. Attualmente questo calcolatore presuppone un singolo valore di richiesta, quindi per i carichi di lavoro con varianza ampia. È consigliabile eseguire il benchmarking della distribuzione sul traffico per determinare la stima più accurata delle PTU necessarie per la distribuzione.

Dopo aver compilato i dettagli necessari, selezionare il pulsante Calcola nella colonna di output.

I valori nella colonna di output sono il valore stimato delle unità PTU necessarie per gli input del carico di lavoro forniti. Il primo valore di output rappresenta le unità PTU stimate necessarie per il carico di lavoro, arrotondate all'incremento di scala PTU più vicino. Il secondo valore di output rappresenta le unità PTU stimate non elaborate necessarie per il carico di lavoro. I totali del token vengono calcolati usando l'equazione seguente: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Screenshot della pagina di destinazione di OpenAI Studio di Azure..

Nota

Il calcolatore della capacità fornisce una stima basata su criteri di input semplici. Il modo più accurato per determinare la capacità consiste nell'eseguire il benchmark di una distribuzione con un carico di lavoro rappresentativo per il caso d'uso.

Informazioni sul modello di acquisto della velocità effettiva con provisioning

Il provisioning e il provisioning globale di Azure OpenAI viene acquistato su richiesta su base oraria in base al numero di PTU distribuite, con uno sconto significativo sul termine disponibile tramite l'acquisto di prenotazioni di Azure.

Il modello orario è utile per le esigenze di distribuzione a breve termine, ad esempio la convalida di nuovi modelli o l'acquisizione della capacità per un hackathon.  Tuttavia, gli sconti offerti dalla prenotazione di Azure per Il provisioning di Azure OpenAI sono notevoli e la maggior parte dei clienti con un utilizzo duraturo e continuo scoprirà che un modello riservato è una proposta di valore migliore.

Nota

I clienti con provisioning di Azure OpenAI di cui è stato eseguito l'onboarding prima dell'aggiornamento self-service di agosto usano un modello di acquisto denominato Modello di impegno. Questi clienti possono continuare a usare questo modello di acquisto precedente insieme al modello di acquisto orario/prenotazione. Il Modello di impegno non è disponibile per i nuovi clienti. Per informazioni dettagliate sul modello di acquisto di impegno e sulle opzioni per la coesistenza e la migrazione, vedere l'aggiornamento di agosto con provisioning di Azure OpenAI.

Utilizzo orario

Le distribuzioni con provisioning e provisioning globale vengono addebitate una tariffa oraria ($/PTU/hr) per il numero di PTU distribuiti.  Ad esempio, per una distribuzione di 300 PTU verrà addebitata la tariffa oraria moltiplicata per 300 volte.  Tutti i prezzi di Azure OpenAI sono disponibili nel Calcolatore prezzi di Azure.

Se esiste una distribuzione per un'ora parziale, riceverà un addebito ripartito proporzionalmente in base al numero di minuti per cui è stata distribuita durante l'ora.  Ad esempio, una distribuzione che è durata 15 minuti di un'ora riceverà l'addebito orario per 1/4. 

Se le dimensioni della distribuzione vengono modificate, i costi della distribuzione verranno modificati in modo che corrispondano al nuovo numero di PTU.

Diagramma che mostra la fatturazione oraria.

Il pagamento per le distribuzioni con provisioning su base oraria è ideale per scenari di distribuzione a breve termine.  Ad esempio: benchmark qualità e prestazioni di nuovi modelli o aumento temporaneamente della capacità PTU per coprire un evento come un hackathon. 

I clienti che richiedono l'utilizzo a lungo termine delle distribuzioni con provisioning e provisioning globale, tuttavia, potrebbero pagare significativamente meno al mese acquistando uno sconto a lungo termine tramite una prenotazione di Azure, come illustrato nella sezione successiva.

Nota

Non è consigliabile ridimensionare le distribuzioni di produzione in base al traffico in ingresso e pagarle esclusivamente su base oraria. per i due motivi seguenti:

  • I risparmi sui costi ottenuti acquistando una prenotazione di Azure per Azure OpenAI con provisioning sono significativi e in molti casi sarà meno costoso mantenere una distribuzione ridimensionata per il volume di produzione completo, pagato tramite una prenotazione di quanto sarebbe ridimensionare la distribuzione con il traffico in ingresso.
  • La presenza di quote con provisioning inutilizzate non garantisce che la capacità sarà disponibile per supportare l'aumento delle dimensioni della distribuzione quando necessario. La quota limita il numero massimo di PTU che possono essere distribuite, ma non è una garanzia di capacità. La capacità di cui è stato effettuato il provisioning per ogni area e finestra modale cambia in modo dinamico durante il giorno e potrebbe non essere disponibile quando necessario. Di conseguenza, è consigliabile mantenere una distribuzione permanente per coprire le esigenze di traffico (a pagamento tramite una prenotazione).
  • Gli addebiti per le distribuzioni in una risorsa eliminata continueranno fino a quando la risorsa non viene eliminata. Per evitare che questo avvenga, eliminare la distribuzione di una risorsa prima di eliminare la risorsa. Per altre informazioni, vedere Ripristinare o eliminare le risorse dei servizi di intelligenza artificiale di Azure.

Prenotazioni di Azure per Azure OpenAI con provisioning e provisioning globale

È possibile ottenere sconti oltre il prezzo di utilizzo orario acquistando una prenotazione di Azure per Azure OpenAI con provisioning. Una prenotazione di Azure è un meccanismo di sconto a termine condiviso da molti prodotti Azure. Ad esempio, Calcolo e Cosmos DB. Per Azure OpenAI con provisioning e provisioning globale, la prenotazione offre uno sconto per l'impegno a pagare per un numero fisso di PTU per un periodo determinato di un mese o di un anno. 

  • Le prenotazioni di Azure vengono acquistate tramite il portale di Azure, non dal collegamento di Azure OpenAI Studio al portale di prenotazione di Azure.

  • Le prenotazioni vengono acquistate a livello di area e possono essere limitate in modo flessibile per coprire l'utilizzo da un gruppo di distribuzioni. Gli ambiti di prenotazione includono:

    • Gruppi di risorse individuali o sottoscrizioni

    • Un gruppo di sottoscrizioni in un gruppo di gestione

    • Tutte le sottoscrizioni in un account di fatturazione

  • È possibile acquistare nuove prenotazioni per coprire lo stesso ambito delle prenotazioni esistenti, per consentire lo sconto delle nuove distribuzioni di cui è stato effettuato il provisioning. L'ambito delle prenotazioni esistenti può anche essere aggiornato in qualsiasi momento senza penalità, ad esempio per coprire una nuova sottoscrizione.

  • Le prenotazioni possono essere annullate dopo l'acquisto, ma i crediti sono limitati.

  • Se le dimensioni delle distribuzioni di cui è stato effettuato il provisioning nell'ambito di una prenotazione superano l'importo della prenotazione, l'importo in eccesso viene addebitato alla tariffa oraria. Ad esempio, se le distribuzioni che ammontano a 250 PTU sono presenti nell'ambito di una prenotazione di 200 PTU, verranno addebitati 50 PTU su base oraria fino a quando le dimensioni della distribuzione non vengono ridotte a 200 PTU o viene creata una nuova prenotazione per coprire i rimanenti 50.

  • Le prenotazioni garantiscono un prezzo scontato per il periodo selezionato.  Non riservano capacità nel servizio o garantiscono che sarà disponibile quando viene creata una distribuzione. È consigliabile che i clienti creino distribuzioni prima di acquistare una prenotazione per impedire l'over-purchasing di una prenotazione.

Importante

  • La disponibilità della capacità per le distribuzioni di modelli è dinamica e cambia frequentemente tra aree e modelli. Per evitare di acquistare una prenotazione per un numero di unità elaborate con provisioning (PTU) superiore a quanto sia possibile usare, creare prima le distribuzioni e quindi acquistare la prenotazione di Azure per coprire le PTU distribuite. Questa procedura consigliata garantisce che sia possibile sfruttare appieno lo sconto sulla prenotazione ed evitare l'acquisto di un impegno a termine che non è possibile usare.

  • I requisiti dei criteri del ruolo e del tenant di Azure per acquistare una prenotazione sono diversi da quelli necessari per creare una distribuzione o una risorsa OpenAI di Azure. Verificare l'autorizzazione per acquistare le prenotazioni prima di dover eseguire questa operazione. Per altri dettagli, vedere la documentazione sulla prenotazione con provisioning di Azure OpenAI.

Importante: ridimensionamento delle prenotazioni con provisioning di Azure OpenAI e con provisioning globale

Gli importi PTU negli acquisti di prenotazioni sono indipendenti dalle PTU allocate nella quota o usate nelle distribuzioni. È possibile acquistare una prenotazione per più PTU rispetto alla quota o distribuire per l'area, il modello o la versione desiderata. I crediti per l'over-purchasing di una prenotazione sono limitati e i clienti devono adottare misure per garantire che le dimensioni delle prenotazioni siano in linea con le unità PTU distribuite.

La procedura consigliata consiste nell'acquistare sempre una prenotazione dopo la creazione delle distribuzioni. In questo modo si impedisce l'acquisto di una prenotazione e quindi si scopre che la capacità richiesta non è disponibile per l'area o il modello desiderato.

Per assistere i clienti con l'acquisto degli importi di prenotazione corretti. Il numero totale di PTU in una sottoscrizione e un'area che possono essere coperti da una prenotazione sono elencati nella pagina Quote di Azure OpenAI Studio. Vedere il messaggio "PTU disponibili per la prenotazione".

Screenshot che mostra la quota di PTU disponibile.

Gestione delle prenotazioni di Azure

Dopo aver creato una prenotazione, è consigliabile monitorarla per assicurarsi che riceva l'utilizzo previsto. Questa operazione può essere eseguita tramite il portale di prenotazione di Azure o Monitoraggio di Azure. I dettagli su questi argomenti e altri sono disponibili qui:

Passaggi successivi