Sintesi vocale con lo strumento di creazione di contenuti audio

Articolo
09/09/2024

Puoi usare lo strumento Creazione di contenuto audio in Speech Studio per la sintesi vocale senza dover scrivere codice. Lo strumento Creazione di contenuto audio potrebbe fornire l'audio vocale finale desiderato. Puoi usare l'audio di output così com’è o come punto iniziale per un'ulteriore personalizzazione.

Creare contenuti audio altamente naturali per diversi scenari, ad esempio audiolibri, trasmissioni di notizie, narrazioni video e chat bot. Con Creazione di contenuto audio, è possibile ottimizzare in modo efficiente la sintesi vocale e progettare esperienze audio personalizzate.

Lo strumento si basa su Speech Synthesis Markup Language (SSML). Consente di regolare il testo in base agli attributi di output di sintesi vocale in tempo reale o in sintesi batch, ad esempio caratteri vocali, stili vocali, velocità, pronuncia e prosodia.

Approccio senza codice: puoi usare lo strumento Creazione di contenuto audio in Speech Studio per usare la sintesi vocale senza dover scrivere codice. L'audio di output potrebbe essere già il risultato finale desiderato. Ad esempio, puoi usare l'audio di output per un podcast o una narrazione video.
Semplice per gli sviluppatori: è possibile ascoltare l'audio di output e regolare SSML per migliorare la sintesi vocale. È quindi possibile usare Speech SDK o l'interfaccia della riga di comando (CLI) di Voce per integrare SSML nelle applicazioni. Ad esempio, è possibile usare SSML per creare un chatbot.

Puoi accedere facilmente a un ampio portfolio di lingue e voci. Queste voci includono voci neurali predefinite e una voce neurale personalizzata, se ne è stata creata una.

Per altre informazioni, vedi il video di esercitazione sulla creazione di contenuto audio su YouTube.

Operazioni preliminari

L’accesso allo strumento Creazione di contenuto audio in Speech Studio è gratuito, ma l'utilizzo del servizio Voce è a pagamento. Per usare lo strumento, è necessario accedere con un account Azure e creare una risorsa Voce. Per ogni account Azure sono disponibili quote di riconoscimento vocale mensili gratuite, che includono 0,5 milioni di caratteri per le voci neurali predefinite (definite Neurali nella pagina dei prezzi). In genere, la quantità mensile assegnata è sufficiente per un piccolo team di contenuti di circa 3-5 persone.

Le sezioni successive illustrano come creare un account Azure e ottenere una risorsa Voce.

Passaggio 1: creare un account Azure

Per usare Creazione di contenuto audio sono necessari un account Microsoft e un account Azure.

Il portale di Azure è il luogo centralizzato da cui gestire l'account Azure. Puoi creare la risorsa Voce, gestire l'accesso al prodotto e monitorare tutto, dalle semplici app Web alle distribuzioni cloud complesse.

Passaggio 2: Creare una risorsa Voce

Dopo esserti registrato per l'account Azure dovrai creare una risorsa Voce nell'account Azure per accedere ai servizi Voce. Creare una risorsa di Voce nel portale di Azure. Per altre informazioni, vedere Creare una risorsa di Servizi di Azure AI.

È necessario qualche secondo per distribuire la nuova risorsa del servizio Voce. Al termine della distribuzione potrai iniziare a usare lo strumento Creazione di contenuto audio.

Nota

Se hai intenzione di usare le voci neurali, assicurati di creare la risorsa in un'area che supporta le voci neurali.

Dopo aver ottenuto un account Azure e la risorsa Voce, accedi a Speech Studioe seleziona Creazione contenuto audio.
Seleziona la sottoscrizione di Azure e la risorsa Voce da usare e quindi seleziona Usa risorsa.

La prossima volta che accederai a Creazione contenuto audio, verrai collegato direttamente ai file di lavoro audio nella risorsa Voce corrente. Puoi controllare i dettagli e lo stato della sottoscrizione di Azure nel portale di Azure.

Se non disponi di una risorsa voce disponibile e sei il proprietario o l'amministratore di una sottoscrizione di Azure, puoi creare una risorsa Voce in Speech Studio selezionando Crea una nuova risorsa.

Se hai un ruolo utente per una determinata sottoscrizione di Azure, è possibile che tu non disponga delle autorizzazioni per creare una nuova risorsa voce. Contatta l'amministratore per ottenere l'accesso.

Per cambiare la risorsa Voce in qualsiasi momento, seleziona Impostazioni nella parte superiore della pagina.

Per cambiare directory, seleziona Impostazioni o vai al tuo profilo.

Usare lo strumento

Il diagramma seguente mostra il processo di ottimizzazione degli output di Sintesi vocale.

Diagramma della sequenza di passaggi per l'ottimizzazione degli output della sintesi vocale.

Ogni passaggio del diagramma precedente è descritto di seguito:

Scegli la risorsa Voce da usare.
Crea un file di ottimizzazione audio usando script di testo normale o SSML. Immetti o carica il contenuto nella creazione di contenuto audio.
Scegli la voce e la lingua per il contenuto dello script. La creazione di contenuto audio include tutte le voci di sintesi vocale predefinite. È possibile usare le voci neurali predefinite o una voce neurale personalizzata.

Nota

L'accesso gestito è disponibile per la funzione Sintesi vocale neurale personalizzata, che consente di creare voci ad alta definizione simili al parlato naturale. Per altre informazioni, vedi le limitazioni.
Seleziona il contenuto da riprodurre in anteprima, quindi fai clic suRiproduci (tramite l’icona del triangolo) per visualizzare in anteprima l'output di sintesi predefinito.

Se apporti modifiche al testo, seleziona l'icona Stop, quindi seleziona di nuovo Riproduci per rigenerare l'audio con script modificati.

Migliora l'output regolando pronuncia, pause, altezza, velocità, intonazione, stile vocale e altro ancora. Per un elenco completo delle opzioni, vedei Speech Synthesis Markup Language.

Per altre informazioni sulla regolazione dell'output vocale, vedi il come convertire il testo nel video vocale su YouTube. Tuttavia, il video potrebbe non essere disponibile in tutte le aree e potrebbe non essere aggiornato entro l'ora in cui lo si guarda.
Salva ed esporta l'audio ottimizzato.

Quando salvi la traccia di ottimizzazione nel sistema, puoi continuare a lavorare ed eseguire l'iterazione sull'output. Quando l'output è soddisfacente, è possibile creare un'attività di creazione audio con funzionalità di esportazione. Puoi osservare lo stato dell'attività di esportazione e scaricare l'output da usare con le app e i prodotti.

Creare un file di ottimizzazione audio

Puoi ottenere il contenuto nello strumento Creazione di contenuto audio in uno dei due modi seguenti:

Opzione 1: Creare un nuovo file di ottimizzazione audio

Seleziona Nuovo>file di testo per creare un nuovo file di ottimizzazione audio.
Immetti o incolla il contenuto nella finestra di modifica. Il numero consentito di caratteri per ogni file è di 20.000 o meno. Se lo script contiene più di 20.000 caratteri, è possibile usare l'opzione 2 per suddividere automaticamente il contenuto in più file.
Seleziona Salva.

Opzione 2: Caricare un file di ottimizzazione audio

Seleziona Carica>file di testo per importare uno o più file di testo. Sono supportati sia testo normale che SSML.

Se il file di script contiene più di 20.000 caratteri, suddividi il contenuto per paragrafi, per caratteri o per espressioni regolari.

Quando carichi i file di testo, assicurati che soddisfino questi requisiti:

Proprietà	Descrizione
Formato file	Testo normale (.txt) o testo SSML (.txt) I file ZIP non sono supportati.
Formato di codifica	UTF-8
File name	Ogni file deve avere un nome univoco. I file doppi non sono supportati.
Text length	Il limite di caratteri è 20.000. Se i file superano il limite, suddividerli in base alle istruzioni nello strumento.
Restrizioni SSML	Ogni file SSML può contenere solo una singola parte di SSML.

Ecco un esempio di testo normale:

Welcome to use Audio Content Creation to customize audio output for your products.

Ecco un esempio di SSML:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
   <voice name="en-US-AvaMultilingualNeural">
   Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
   </voice>
</speak>

Esportare audio ottimizzato

Dopo aver esaminato l'output audio e aver verificato che ottimizzazione e regolazione siano soddisfacenti, è possibile esportarlo.

Seleziona Esporta per creare un'attività di creazione audio.

Consigliamo di usare Esporta nella libreria audio per archiviare, trovare e cercare facilmente l'output audio nel cloud. Puoi integrare le applicazioni al meglio usando l'archiviazione BLOB di Azure. Puoi anche scaricare l'audio direttamente sul disco locale.

Scegli il formato di output per l'audio ottimizzato. I formati audio supportati e le frequenze di campionamento sono elencati nella tabella seguente:

Formato	Frequenza di campionamento di 8 kHz	Frequenza di campionamento di 16 kHz	Frequenza di campionamento di 24 kHz	Frequenza di campionamento di 48 kHz
wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
mp3	N/D	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

Per visualizzare lo stato dell'attività, seleziona la scheda Elenco attività .

Se l'attività non riesce, vedi la pagina delle informazioni dettagliate per un report completo.
Al termine dell'attività, l'audio è disponibile per il download nel riquadro Libreria audio.
Seleziona il file da scaricare e Scarica.

A questo punto puoi usare l'audio ottimizzato personalizzato nelle app o nei prodotti.

Configurare BYOS e l'accesso in lettura pubblico anonimo per BLOB

Se viene persa l'autorizzazione di accesso per bring your own storage (BYOS), non sarà possibile visualizzare, creare, modificare o eliminare file. Per riprendere l'accesso, dovrai rimuovere l'archiviazione corrente e riconfigurare BYOS nel portale di Azure. Per altre informazioni su come configurare BYOS, vedi Montare Archiviazione di Azure come condivisione locale nel servizio app.

Dopo aver configurato l'autorizzazione BYOS, dovrai configurare l'accesso in lettura pubblico anonimo per contenitori e BLOB correlati. In caso contrario, i dati BLOB non sono disponibili per l'accesso pubblico e il file lessico nel BLOB non sarà accessibile. Per impostazione predefinita, l'impostazione di accesso pubblico di un contenitore è disabilitata. Per concedere agli utenti anonimi l'accesso in lettura a un contenitore e ai relativi BLOB, imposta prima Consenti l'accesso pubblico ai BLOB su Abilitato per consentire l'accesso pubblico per l'account di archiviazione, quindi imposta il livello di accesso pubblico (denominato acc-public-files) (accesso in lettura anonimo solo per i BLOB). Per informazioni sulla configurazione dell'accesso in lettura pubblico anonimo in un contenitore, vedi Configurare l'accesso in lettura pubblico anonimo per contenitori e BLOB.

Aggiungere o rimuovere utenti alla creazione di contenuto audio

Se più utenti vogliono usare la creazione di contenuto audio, è possibile concedere loro l'accesso alla sottoscrizione di Azure e alla risorsa Voce. Se aggiungi degli utenti a una sottoscrizione di Azure potranno accedere al suo interno. Tuttavia, se vengono aggiunti utenti solo a una risorsa Voce, tali utenti avranno accesso solo alla risorsa Voce e non ad altre risorse in questa sottoscrizione di Azure. Gli utenti con accesso alla risorsa Voce possono usare lo strumento Creazione di contenuto audio.

Gli utenti a cui si concede l'accesso devono configurare un account Microsoft. Se non hanno un account Microsoft, possono crearne uno in pochi minuti. Possono usare la posta elettronica esistente e collegarla a un account Microsoft oppure possono creare e usare un indirizzo di posta elettronica di Outlook come account Microsoft.

Aggiungere utenti a una risorsa Voce

Per aggiungere utenti a una risorsa Voce in modo che possano usare la creazione di contenuto audio, esegui le operazioni seguenti:

Nel portale di Azureselezionare Tutti i servizi nel riquadro di spostamento a sinistra e quindi cercare servizi di intelligenza artificiale di Azure o Voce.
Selezionare la risorsa Voce.

Nota

Puoi anche configurare il controllo degli accessi in base al ruolo (RBAC) di Azure per gruppi di risorse, sottoscrizioni o gruppi di gestione interi. A tale scopo, selezionare il livello di ambito desiderato e quindi passare all'elemento desiderato, ad esempio selezionando Gruppi di risorse e quindi selezionando il gruppo di risorse.
Nel pannello di navigazione a sinistra selezionare Controllo di accesso (IAM).
Seleziona Aggiungi>Aggiungi assegnazione ruolo.
Nella scheda Ruolo nella schermata successiva selezionare un ruolo ( ad esempio Proprietario) da aggiungere.
Nella scheda Membri immettere l'indirizzo di posta elettronica di un utente e selezionare il suo nome nella directory. L'indirizzo e-mail deve essere collegato a un account Microsoft considerato attendibile da Microsoft Entra ID. Gli utenti possono iscriversi facilmente per ottenere un account Microsoft usando il proprio indirizzo di posta elettronica personale.
Nella scheda Rivedi e assegna selezionare Rivedi e assegna per assegnare il ruolo.

Di seguito è illustrato ciò che accade:

Viene inviato automaticamente un invito tramite e-mail agli utenti.

Nota

Se gli utenti non ricevono il messaggio di invito via e-mail, puoi cercare il loro account in Assegnazioni di ruolo e accedere al loro profilo. Cerca Identità>Invito accettato e seleziona (gestisci) per inviare nuovamente l'invito tramite e-mail. Puoi anche copiare e inviare il collegamento di invito.
Possono accettarlo selezionando Accetta invito>Accetta per unirti ad Azure nel messaggio e-mail.
Verranno reindirizzati al portale di Azure. Non sono richieste ulteriori azioni nel portale di Azure.
Dopo alcuni istanti, agli utenti viene assegnato il ruolo nell'ambito della risorsa Voce, che consente loro di accedervi.

Gli utenti ora visitano o aggiornano la pagina del prodotto Creazione di contenuto audio e accedono con il proprio account Microsoft. Selezionano il blocco Creazione di contenuto audio tra i prodotti vocali. Scelgono la risorsa Voce nella finestra popup o nelle impostazioni in alto a destra.

Se non riescono a trovare la risorsa Voce disponibile, possono controllare di essere nella directory corretta. A tale scopo, selezionano il profilo account in alto a destra e poi Cambia accanto a Directory corrente. Se sono disponibili più directory, significa che hanno accesso a più directory. Possono passare a directory diverse e passare a Impostazioni per verificare se la risorsa Voce corretta è disponibile.

Gli utenti che si trovano nella stessa risorsa Voce vedono il lavoro degli altri nello strumento Creazione di contenuto audio. Se vuoi che ogni singolo utente abbia un ambiente di lavoro univoco e privato in Creazione di contenuto audio, crea una nuova risorsa Voce per ognuno e concedi loro l'accesso univoco alla risorsa.

Rimuovere gli utenti da una risorsa Voce

Per rimuovere l'autorizzazione di un utente da una risorsa Voce, eseguire le operazioni seguenti:

Cercare Servizi di Azure AI nel portale di Azure e selezionare la risorsa Voce da cui vuoi rimuovere gli utenti.
Seleziona Controllo di accesso (IAM) e quindi seleziona la scheda Assegnazioni di ruolo per visualizzare le assegnazioni di ruolo per la risorsa Voce.
Seleziona gli utenti da rimuovere, quindi seleziona Rimuovi e poi OK.

Permettere agli utenti di concedere l'accesso ad altri

Se vuoi consentire a un utente di concedere l'accesso ad altri, è necessario assegnare il ruolo di proprietario per la risorsa Voce e impostare l'utente come ruolo con autorizzazioni di lettura della directory Azure.

Aggiungi l'utente come proprietario della risorsa Voce. Per altre informazioni, vedere Aggiungere utenti a una risorsa Voce.
Nel portale di Azure, selezionare il menu compresso in alto a sinistra, selezionare Microsoft Entra ID e quindi Utenti.
Cerca l'account Microsoft dell'utente, passa alla pagina dei dettagli e quindi seleziona Ruoli assegnati.
Seleziona Aggiungi assegnazioni>Ruoli con autorizzazioni di lettura della directory. Se il pulsante Aggiungi assegnazioni non è disponibile, significa che non hai accesso. È necessario avere il ruolo di Proprietario o di amministratore accesso utenti per assegnare ruoli agli utenti.

Condividi tramite

Sintesi vocale con lo strumento di creazione di contenuti audio