Novità di Voce di Azure AI
Voce di Azure AI viene aggiornato regolarmente. Per stare al passo con gli sviluppi più recenti, questo articolo fornisce informazioni sulle nuove versioni e funzionalità.
Evidenziazioni recenti
- La trascrizione rapida è ora disponibile a livello generale. Può trascrivere l'audio molto più velocemente della durata effettiva dell'audio. Per altre informazioni, vedere la guida all'API di Trascrizione rapida.
- L'estensione Azure AI Speech Toolkit è ora disponibile per gli utenti di Visual Studio Code. Contiene un elenco di guide introduttive e esempi di scenari che possono essere facilmente compilati ed eseguiti con semplici clic. Per altre informazioni, vedere Azure AI Speech Toolkit in Visual Studio Code Marketplace.
- Le voci HD (Speech High Definition) di Azure per intelligenza artificiale sono disponibili in anteprima pubblica. Le voci HD possono comprendere il contenuto, rilevare automaticamente le emozioni nel testo di input e regolare il tono di pronuncia in tempo reale in modo che corrisponda al sentiment. Per altre informazioni, vedere Che cosa sono le voci HD (Speech High Definition) di Azure per intelligenza artificiale?.
- Traduzione video è ora disponibile nel servizio Voce di Azure AI. Per altre informazioni, vedere Che cos'è Traduzione video?.
- Il servizio Voce di Azure AI supporta le voci di sintesi vocale di OpenAI. Per altre informazioni, vedere Che cos’è la sintesi vocale di OpenAI?.
- L'API vocale personalizzata è disponibile per la creazione e la gestione di modelli di voce neurale professionale e personale.
Note sulla versione
Scegliere un servizio o una risorsa
Versione di novembre 2024
L'estensione Azure AI Speech Toolkit è ora disponibile per gli utenti di Visual Studio Code. Contiene un elenco di guide introduttive e esempi di scenari che possono essere facilmente compilati ed eseguiti con semplici clic. Per altre informazioni, vedere Azure AI Speech Toolkit in Visual Studio Code Marketplace.
Speech SDK 1.41.1: versione di ottobre 2024
Nuove funzionalità
- Aggiunta del supporto per Amazon Linux 2023 e Azure Linux 3.0.
- Aggiunta dell'ID proprietà pubblica SpeechServiceConnection_ProxyHostBypass per specificare gli host per cui non viene usato il proxy.
- Aggiunta di proprietà per controllare le nuove strategie di segmentazione delle frasi.
Correzioni di bug
- Correzione del supporto incompleto per il riconoscimento delle parole chiave Modelli avanzati prodotti dopo agosto 2024.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Si noti che con Swift in iOS il progetto deve usare MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (da https://aka.ms/csspeech/iosbinaryembedded) o il pod MicrosoftCognitiveServicesSpeechEmbedded-iOS che includono il supporto del modello avanzato.
- Correzione di una perdita di memoria in C# correlata all'utilizzo delle stringhe.
- Correzione del mancato recupero di SPXAutoDetectSourceLanguageResult da SPXConversationTranscriptionResult in Objective-C e Swift.
- Correzione di un arresto anomalo occasionale quando si usa Microsoft Audio Stack nel riconoscimento.
- Correzione degli hint di tipo in Python. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
- Correzione del mancato recupero dell'elenco di voci TTS quando si usa un endpoint personalizzato.
- Correzione dell'inizializzazione TTS incorporata per ogni richiesta di pronuncia quando la voce viene specificata da un nome breve.
- Correzione della documentazione di riferimento dell'API per la durata massima dell'audio RecognizeOnce.
- Correzione della gestione degli errori delle frequenze di campionamento arbitari in JavaScript
- Grazie a rseanhall per questo contributo.
- Correzione dell'errore durante il calcolo dell'offset audio in JavaScript
- Grazie a motamed per questo contributo.
Modifiche di rilievo
- Il supporto del riconoscimento delle parole chiave in Windows ARM a 32 bit è stato rimosso a causa del runtime ONNX richiesto non disponibile per questa piattaforma.
Speech SDK 1.40: versione di agosto 2024
Nota
Speech SDK versione 1.39.0 era una versione interna e non è una versione mancante.
Nuove funzionalità
- Aggiunta del supporto per lo streaming dell'audio compresso
G.722
nel riconoscimento vocale. - Aggiunta del supporto per l'impostazione di tonalità, frequenza e volume nel flusso di testo di input nella sintesi vocale.
- Aggiunta del supporto per lo streaming di testo di input vocale personale tramite introduzione di
PersonalVoiceSynthesisRequest
nella sintesi vocale. Questa API è in anteprima ed è soggetta a modifiche nelle versioni future. - Aggiunta del supporto per la diarizzazione dei risultati intermedi quando si usa
ConversationTranscriber
. - Rimosso il supporto CentOS/RHEL 7 a causa di EOL CentOS 7 e fine del supporto per la manutenzione di RHEL 7 2.
- L'uso di modelli di riconoscimento vocale incorporati richiede ora una licenza del modello anziché una chiave del modello. Se si è un cliente del riconoscimento vocale incorporato esistente e si vuole eseguire l'aggiornamento, contattare il supporto tecnico Microsoft per informazioni dettagliate sugli aggiornamenti del modello.
Correzioni di bug
- I file binari di Speech SDK compilati per Windows con il flag _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR come mitigazione per il problema di runtime di Visual C++ Violazione di accesso con std::mutex::lock dopo l'aggiornamento a VISUAL 2022 versione 17.10.0 - Developer Community (visualstudio.com). Le applicazioni Windows C++ che usano Speech SDK potrebbero dover applicare lo stesso flag di configurazione di compilazione se il codice usa std::mutex (vedere i dettagli nel problema collegato).
- Correzione del rilevamento OpenSSL 3.x non funzionante in Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
- È stato risolto il problema per cui, quando si distribuisce un'app UWP, le librerie e il modelli dal pacchetto NuGet MAS non vengono copiati nel percorso di distribuzione.
- Risoluzione di un conflitto tra provider di contenuti nei pacchetti Android (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
- Correzione delle opzioni di post-elaborazione che non si applicano ai risultati intermedi del riconoscimento vocale.
- Correzione dell'avviso .NET 8 sugli identificatori di runtime specifici della distribuzione (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244).
Esempi
- Esempi di riconoscimento vocale incorporati aggiornati per usare una licenza del modello anziché una chiave.
SDK di Voce 1.38.0: versione di giugno 2024
Nuove funzionalità
- Requisiti per l'aggiornamento dell'SDK di Voce per la piattaforma Linux:
- La nuova baseline minima è Ubuntu 20.04 LTS o compatibile con
glibc
2.31 o versione successiva. - I binari per Linux x86 sono stati rimossi in conformità alla piattaforma per il supporto Ubuntu 20.04.
- Tenere presente che RHEL/CentOS 7 sarà supportato fino al 30 giugno (fine di CentOS 7 EOL e fine del supporto per la manutenzione di RHEL 7 2). I binari per loro verranno rimossi nella versione dell'SDK di Voce 1.39.0.
- La nuova baseline minima è Ubuntu 20.04 LTS o compatibile con
- Aggiungere il supporto per OpenSSL 3 on Linux.
- Aggiungere il supporto per il formato di output audio g722-16khz-64kbps con il sintetizzatore vocale.
- Aggiungere il supporto per l'invio di messaggi tramite un oggetto di connessione con il sintetizzatore vocale.
- Aggiungere le API Start/StopKeywordRecognition API in Objective-C e Swift.
- Aggiungere l'API per selezionare una categoria di modello di traduzione personalizzata.
- Aggiornare l'utilizzo di GStreamer con il sintetizzatore vocale.
Correzioni di bug
- Correzione dell'errore "Le dimensioni del messaggio WebSocket non possono superare 65.536 byte" durante Start/StopKeywordRecognition.
- Correggere un errore di segmentazione Python durante la sintesi vocale.
Esempi
- Aggiornare gli esempi di C# per l'utilizzo di .NET 6.0 per impostazione predefinita.
Speech SDK 1.37.0: versione di aprile 2024
Nuove funzionalità
- Aggiungere il supporto per lo streaming di testo di input nella sintesi vocale.
- Modificare la voce di sintesi vocale predefinita in en-US-AvaMultilingualNeural.
- Aggiornare le build Android per l’uso di OpenSSL 3.x.
Correzioni di bug
- Correggere gli arresti anomali occasionali di JVM durante l'eliminazione di SpeechRecognizer quando si usa MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
- Migliorare il rilevamento dei dispositivi audio predefiniti in Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)
Esempi
- Aggiornato per le nuove funzionalità.
Speech SDK 1.36.0: versione di marzo 2024
Nuove funzionalità
- Aggiungere il supporto per l'identificazione della lingua nella traduzione multilingue negli endpoint v2 tramite AutoDetectSourceLanguageConfig::FromOpenRange().
Correzioni di bug
Correggere la mancata generazione dell’evento SynthesisCanceled in caso di chiamata dell'arresto durante l'evento SynthesisStarted.
Correggere il problema del rumore nella sintesi vocale incorporata.
Correggere il problema dell’arresto anomalo del riconoscimento vocale incorporato durante l'esecuzione di più riconoscimenti in parallelo.
Correggere l'impostazione della modalità di rilevamento frasi negli endpoint v1/v2.
Correggere i vari problemi relativi a Microsoft Audio Stack.
Esempi
- Aggiornamenti per le nuove funzionalità.
Speech SDK 1.35.0: versione di febbraio 2024
Nuove funzionalità
- Modificare la voce sintesi vocale da en-US-JennyMultilingualNeural a en-US-AvaNeural.
- Supportare i dettagli a livello di parola nei risultati della traduzione vocale incorporata usando il formato di output dettagliato.
Correzioni di bug
- Correggere l'API getter posizione AudioDataStream in Python.
- Correggere la traduzione vocale usando gli endpoint v2 senza rilevamento della lingua.
- Correggere un arresto anomalo del sistema casuale e eventi confine di parola duplicati in testo sintesi vocale incorporata.
- Restituire un codice di errore di annullamento corretto per un errore interno del server nelle connessioni WebSocket.
- Correggere l'errore durante il caricamento della libreria FPIEProcessor.dll quando si usa MAS con C#.
Esempi
- Aggiornamenti di formattazione secondari per gli esempi di riconoscimento incorporato.
Speech SDK 1.34.1: versione di gennaio 2024
Modifiche di rilievo
- Solo correzioni di bug
Nuove funzionalità
- Solo correzioni di bug
Correzioni di bug
- Correggere la regressione introdotta nella versione 1.34.0 in cui l'URL dell'endpoint di servizio è stato costruito con informazioni sulle impostazioni locali non corrette per gli utenti in diverse aree della Cina.
Speech SDK 1.34.0: versione di novembre 2023
Modifiche di rilievo
SpeechRecognizer
è stato aggiornato per l'uso di un nuovo endpoint per impostazione predefinita (ad esempio, quando non si specifica in modo esplicito un URL) che non supporta più i parametri della stringa di query per la maggior parte delle proprietà. Anziché impostare i parametri della stringa di query direttamente con ServicePropertyChannel.UriQueryParameter, usare le funzioni API corrispondenti.
Nuove funzionalità
- Compatibilità con .NET 8 (correzione per https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 ad eccezione dell'avviso relativo a centos7-x64)
- Supporto per le metriche delle prestazioni voce incorporate che possono essere usate per valutare la capacità di un dispositivo per eseguire il parlato incorporato.
- Supporto per l'identificazione della lingua di origine nella traduzione multilingue incorporata.
- Supporto per riconoscimento vocale, sintesi vocale e traduzione incorporati per iOS e Swift/Objective-C rilasciato in anteprima.
- Il supporto incorporato è disponibile in MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.
Correzioni di bug
- Correzione per l'aumento delle dimensioni binarie di iOS SDK x2 volte · Problema n. 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Correzione di "Non è possibile ottenere timestamp dall'API Riconoscimento vocale da Azure" · Problema n. 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Correzione per la fase di distruzione di DialogServiceConnector per disconnettere correttamente gli eventi. Questo causava occasionalmente arresti anomali del sistema.
- Correzione per l'eccezione durante la creazione di un sistema di riconoscimento quando è usato MAS.
- FPIEProcessor.dll dal pacchetto NuGet Microsoft.CognitiveServices.Speech.Extension.MAS per la piattaforma UWP di Windows x64 e Arm64 dipende dalle librerie di runtime VC per C++nativo. Il problema è stato corretto aggiornando la dipendenza per correggere le librerie di runtime VC (per la piattaforma UWP).
- Correzione per le chiamate ricorrenti [MAS] a recognizeOnceAsync per SPXERR_ALREADY_INITIALIZED quando si usa MAS · Problema n. 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Correzione per l'arresto anomalo del riconoscimento vocale incorporato quando vengono usati elenchi di frasi.
Esempi
- Esempi iOS incorporati per riconoscimento vocale, sintesi vocale e traduzione.
Interfaccia della riga di comando di Voce 1.34.0: versione di novembre 2023
Nuove funzionalità
- Supportare l'output degli eventi confine di parola parole durante la sintetizzazione del parlato.
Correzioni di bug
- Aggiornamento della dipendenza JMESPath alla versione più recente, migliora le valutazioni delle stringhe
Speech SDK 1.33.0: versione di ottobre 2023
Avviso di modifica che causa un'interruzione
- Il nuovo pacchetto NuGet aggiunto per Microsoft Audio Stack (MAS) è ora necessario essere incluso dalle applicazioni che usano MAS nei file di configurazione del pacchetto.
Nuove funzionalità
- Aggiunta del nuovo pacchetto NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, che offre prestazioni di annullamento echo (eco) migliorate quando si usa Microsoft Audio Stack
- Valutazione della pronuncia: è stato aggiunto il supporto per la valutazione di prosodia e contenuto, che può valutare il parlato in termini di prosodia, vocabolario, grammatica e argomento.
Correzioni di bug
- Correzione degli scostamenti dei risultati del riconoscimento delle parole chiave in modo che corrispondano correttamente al flusso audio di input dall'inizio. La correzione si applica sia al riconoscimento autonomo delle parole chiave che al riconoscimento vocale attivato da parole chiave.
- È stato risolto il problema stopSpeaking del sintetizzatore che non restituisce immediatamente Il metodo SPXSpeechSynthesizer stopSpeaking() non può restituire immediatamente in iOS 17 - Problema #2081
- Correzione del problema di importazione di Mac Catalyst nel supporto del modulo Swift per Mac catalyst con il processore apple. Problema n.1948
- JS: il modulo AudioWorkletNode carica ora usa un URL attendibile, con fallback per il browser della rete CDN include.
- JS: i file lib nel pacchetto fanno ora riferimento a ES6 JS, con supporto per ES5 JS rimosso.
- JS: gli eventi intermedi per lo scenario di traduzione destinati all'endpoint v2 vengono gestiti correttamente
- JS: la proprietà della lingua per TranslationRecognitionEventArgs è ora impostata per gli eventi translation.hypothesis.
- Sintesi vocale: è garantita la generazione dell'evento SynthesisCompleted dopo tutti gli eventi di metadati, quindi può essere usato per indicare la fine degli eventi. Come rilevare quando i visemi sono ricevuti completamente? Problema n. 2093 Azure-Samples/cognitive-services-speech-sdk
Esempi
- Aggiunto esempio per illustrare lo streaming MULAW con Python)
- Correzione dell'esempio NAudio di riconoscimento vocale
Interfaccia della riga di comando di Voce 1.33.0: versione di ottobre 2023
Nuove funzionalità
- Supportare l'output degli eventi confine di parola parole durante la sintetizzazione del parlato.
Correzioni di bug
- Nessuno
Speech SDK 1.32.1: versione di settembre 2023
Correzioni di bug
- Aggiornamenti dei pacchetti Android con le correzioni di sicurezza più recenti da OpenSSL1.1.1v
- JS: proprietà WebWorkerLoadType aggiunta per consentire il bypass del caricamento dell'URL dei dati per il ruolo di lavoro di timeout
- JS: correzione della disconnessione di Conversation Translation dopo 10 minuti
- JS: il token di autenticazione di Conversation Translation dalla conversazione ora si propaga alla connessione al servizio di traduzione
Esempi
Speech SDK 1.31.0: versione di agosto 2023
Nuove funzionalità
Il supporto per la diarizzazione in tempo reale è disponibile in anteprima pubblica con Servizio cognitivo di Azure per la voce SDK 1.31.0. Questa funzionalità è disponibile negli SDK seguenti: C#, C++, Java, JavaScript, Python e Objective-C/Swift.
Confine di parola di parlato sincronizzato ed eventi visema con riproduzione audio
Modifiche di rilievo
- Lo scenario "trascrizione conversazione" precedente è stato rinominato in "trascrizione riunioni". Ad esempio, usare
MeetingTranscriber
anzichéConversationTranscriber
e usare inveceCreateMeetingAsync
diCreateConversationAsync
. Anche se i nomi degli oggetti e dei metodi SDK sono stati modificati, la ridenominazione non modifica la funzionalità stessa. Usare gli oggetti di trascrizione delle riunioni per la trascrizione delle riunioni con profili utente e firme vocali. Per altre informazioni, vedere Trascrizione riunioni. Gli oggetti e i metodi di “traduzione conversazione” non sono interessati da queste modifiche. È comunque possibile usare l'oggettoConversationTranslator
e i relativi metodi per gli scenari di traduzione delle riunioni.
- Per la diarizzazione in tempo reale, viene introdotto un nuovo oggetto
ConversationTranscriber
. Il nuovo modello a oggetti "trascrizione conversazione" e i criteri di chiamata sono simili al riconoscimento continuo con l'oggettoSpeechRecognizer
. Una differenza fondamentale è che l'oggettoConversationTranscriber
è progettato per essere usato in uno scenario di conversazione in cui si vogliono distinguere più parlanti (diarizzazione). I profili utente e le firme vocali non sono applicabili. Per altre informazioni, vedere avvio rapido alla diarizzazione in tempo reale.
Questa tabella mostra i nomi degli oggetti precedenti e nuovi per la diarizzazione in tempo reale e la trascrizione delle riunioni. Il nome dello scenario si trova nella prima colonna, i nomi degli oggetti precedenti si trovano nella seconda colonna e i nomi dei nuovi oggetti si trovano nella terza colonna.
Nome dello scenario | Nomi di oggetti precedenti | Nuovi nomi di oggetti |
---|---|---|
Diarizzazione in tempo reale | N/D | ConversationTranscriber |
Trascrizione riunione | ConversationTranscriber ConversationTranscriptionEventArgs ConversationTranscriptionCanceledEventArgs ConversationTranscriptionResult RemoteConversationTranscriptionResult RemoteConversationTranscriptionClient RemoteConversationTranscriptionResult Participant 1ParticipantChangedReason 1User 1 |
MeetingTranscriber MeetingTranscriptionEventArgs MeetingTranscriptionCanceledEventArgs MeetingTranscriptionResult RemoteMeetingTranscriptionResult RemoteMeetingTranscriptionClient RemoteMeetingTranscriptionResult Participant ParticipantChangedReason User Meeting 2 |
1 Gli oggetti Participant
, ParticipantChangedReason
e User
sono applicabili sia alla trascrizione delle riunioni che agli scenari di traduzione delle riunioni.
2 L'oggetto Meeting
è nuovo e viene utilizzato con l'oggetto MeetingTranscriber
.
Correzioni di bug
- Corretta la versione minima supportata di macOS https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
- Correzione del bug di Valutazione della pronuncia:
- È stato risolto il problema relativo ai punteggi di accuratezza dei fonemi, assicurandosi che ora riflettano in modo accurato solo il fonema pronunciato in modo errato. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- È stato risolto un problema per cui la funzionalità valutazione della pronuncia identificava erroneamente le pronunce corrette, in particolare nelle situazioni in cui le parole potevano avere più pronunce valide. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530
Esempi
CSharp
JavaScript
Speech SDK 1.30.0: versione di luglio 2023
Nuove funzionalità
- C++, C#, Java - Aggiunto supporto per
DisplayWords
nel risultato dettagliato di Riconoscimento vocale incorporato. - Objective-C/Swift - Aggiunto supporto per l'evento
ConnectionMessageReceived
in Objective-C/Swift. - Objective-C/Swift - Miglioramento dei modelli di individuazione delle parole chiave per iOS. Questa modifica ha aumentato le dimensioni di determinati pacchetti che contengono file binari iOS (ad esempio NuGet, XCFramework). Stiamo lavorando per ridurre le dimensioni delle versioni future.
Correzioni di bug
- Corretta la perdita di memoria quando si usa lo strumento di riconoscimento vocale con PhraseListGrammar, come segnalato da un cliente (problema di GitHub).
- Correzione di un deadlock nell’API di connessione aperta sintesi vocale.
Altre note
- Java: alcuni metodi dell'API Java
public
usati internamente sono stati modificati nel pacchettointernal
,protected
oprivate
. Questa modifica non dovrebbe influire sugli sviluppatori, perché non si prevede che le applicazioni usino tali applicazioni. Annotato qui per trasparenza.
Esempi
- Nuovi esempi di valutazione della pronuncia per specificare una lingua di apprendimento nella propria applicazione
- C#: vedere il codice di esempio.
- C++: vedere il codice di esempio.
- JavaScript: vedere il codice di esempio.
- Objective-C: vedere il codice di esempio.
- Python: vedere il codice di esempio.
- Swift: vedere il codice di esempio.
Speech SDK 1.29.0: versione di giugno 2023
Nuove funzionalità
- C++, C#, Java - Anteprima delle API di traduzione vocale incorporata. Ora è possibile eseguire la traduzione vocale senza connessione cloud!
- JavaScript - L'identificazione continua della lingua (LID) è ora abilitata per la traduzione vocale.
- JavaScript: contributo della community per l'aggiunta della proprietà
LocaleName
alla classeVoiceInfo
. Grazie all'utente GitHub shivsarthak per la richiesta pull. - C++, C#, Java - Aggiunta del supporto per il ricampionamento dell’output di sintesi vocale incorporato con frequenza di campionamento da 16 kHz a 48 kHz.
- Aggiunto il supporto per le impostazioni locali
hi-IN
in Riconoscimento finalità con criteri di ricerca semplici.
Correzioni di bug
- Correzione di un arresto anomalo del sistema causato da una race condition in Riconoscimento voce durante la distruzione degli oggetti, come illustrato in alcuni dei test Android
- Correzione di possibili deadlock in Riconoscimento finalità con matcher criterio semplice
Esempi
- Nuovi esempi di traduzione vocale incorporata
Speech SDK 1.28.0: versione di maggio 2023
Modifica
- JavaScript SDK: il protocollo OCSP (Online Certificate Status Protocol) è stato rimosso. Questo consente ai client di conformarsi meglio agli standard del browser e del nodo per la gestione dei certificati. La versione 1.28 e successive non includerà più il modulo OCSP personalizzato.
Nuove funzionalità
- Riconoscimento vocale incorporato ora restituisce
NoMatchReason::EndSilenceTimeout
quando si verifica un timeout di silenzio alla fine di un'espressione. Questo corrisponde al comportamento quando si esegue il riconoscimento usando il servizio parlato in tempo reale. - JavaScript SDK: impostare le proprietà su
SpeechTranslationConfig
mediante i valori di enumerazionePropertyId
.
Correzioni di bug
- C# in Windows - Correzione di potenziali race condition/deadlock nell'estensione audio di Windows. Negli scenari che eliminano il renderer audio rapidamente e usano anche il metodo Sintetizzatore per interrompere il parlato, l'evento sottostante non è stato reimpostato per arresto e potrebbe non determinare mai l'eliminazione dell'oggetto renderer, e nel frattempo potrebbe contenere un blocco globale per l'eliminazione, congelando il thread dotnet GC.
Esempi
- Aggiunta di un esempio di parlato incorporato per MAUI.
- Aggiornamento dell'esempio di parlato incorporato per Android Java per includere il testo per la sintesi vocale.
Speech SDK 1.27.0: versione di aprile 2023
Notifica relativa alle modifiche imminenti
- Si prevede di rimuovere Online Certificate Status Protocol (OCSP) nella prossima versione di JavaScript SDK. Questo consente ai client di conformarsi meglio agli standard del browser e del nodo per la gestione dei certificati. La versione 1.27 è l'ultima che include il modulo OCSP personalizzato.
Nuove funzionalità
- JavaScript – Supporto aggiunto per l'input del microfono dal browser con Identificazione voce e verifica.
- Riconoscimento vocale incorporato - Aggiornamento del supporto per l'impostazione di
PropertyId::Speech_SegmentationSilenceTimeoutMs
.
Correzioni di bug
- Generale - Aggiornamenti dell'affidabilità nella logica di riconnessione del servizio (tutti i linguaggi di programmazione ad eccezione di JavaScript).
- Generale - Correzione delle conversioni di stringhe che causano perdite di memoria in Windows (tutti i linguaggi di programmazione pertinenti ad eccezione di JavaScript).
- Riconoscimento vocale incorporato - Correzione dell'arresto anomalo del riconoscimento vocale in francese quando si usano determinate voci dell'elenco grammaticale.
- Documentazione del codice sorgente - Correzioni ai commenti della documentazione di riferimento dell'SDK correlati alla registrazione audio nel servizio.
- Riconoscimento delle finalità - Correzione delle priorità del matcher dei criteri correlati alle entità elenco.
Esempi
- Gestire correttamente l'errore di autenticazione nell'esempio C# Trascrizione conversazione (CTS).
- Aggiunta di un esempio di valutazione della pronuncia di streaming per Python, JavaScript, Objective-C e Swift.
Speech SDK 1.26.0: versione di marzo 2023
Modifiche di rilievo
- Bitcode è stato disabilitato in tutte le destinazioni iOS nei pacchetti seguenti: Cocoapod con xcframework, NuGet (per Xamarin e MAUI) e Unity. La modifica è dovuta alla deprecazione del supporto bitcode di Apple da Xcode 14 e versioni successive. Questa modifica implica anche se si usa la versione Xcode 13 o se è stato abilitato in modo esplicito il codice bit nell'applicazione usando Speech SDK, è possibile che venga visualizzato un errore indicante che "Il framework non contiene bitcode ed è necessario ricompilarlo". Per risolvere questo problema, assicurarsi che le destinazioni abbiano disabilitato bitcode.
- In questa versione la destinazione di distribuzione iOS minima è stata aggiornata alla versione 11.0. Questo significa che armv7 HW non è più supportato.
Nuove funzionalità
- Riconoscimento vocale incorporato (su dispositivo) supporta ora audio di input della frequenza di campionamento a 8 e 16 kHz (16 bit per campione, mono PCM).
- La sintesi vocale ora segnala latenze di connessione, rete e servizio nel risultato per consentire l'ottimizzazione della latenza end-to-end.
- Nuove regole di associazione per Riconoscimento finalità con criteri di ricerca semplici. Un numero più ampio di byte di caratteri corrispondenti sarà migliore rispetto alle corrispondenze dei criteri con un numero di byte di caratteri inferiore. Esempio: il criterio "Select {something} in alto a destra" prevale su "Select {something}"
Correzioni di bug
- Sintesi vocale: correzione di un bug in cui l'emoji non è corretta negli eventi confine di parola.
- Riconoscimento finalità con CLU (Conversational Language Understanding):
- Le finalità del flusso di lavoro dell’agente di orchestrazione CLU ora vengono visualizzate correttamente.
- Il risultato JSON è ora disponibile tramite l'ID proprietà
LanguageUnderstandingServiceResponse_JsonResult
.
- Riconoscimento vocale con attivazione delle parole chiave: correzione per l'audio mancante di circa 150 ms dopo il riconoscimento di parole chiave.
- Correzione per la build della versione MAUI di iOS NuGet Speech SDK, segnalata dal cliente (problema di GitHub)
Esempi
- Correzione per l'esempio Swift iOS, segnalato dal cliente (problema di GitHub)
Speech SDK 1.25.0: versione di gennaio 2023
Modifiche di rilievo
- Le API di identificazione della lingua (anteprima) sono state semplificate. Se si esegue l'aggiornamento a Speech SDK 1.25 e viene visualizzata un'interruzione di build, visitare la pagina Identificazione lingua per informazioni sulla nuova proprietà
SpeechServiceConnection_LanguageIdMode
. Questa singola proprietà sostituisce i due precedentiSpeechServiceConnection_SingleLanguageIdPriority
eSpeechServiceConnection_ContinuousLanguageIdPriority
. La priorità tra bassa latenza e accuratezza elevata non è più necessaria in seguito ai miglioramenti recenti del modello. Ora è sufficiente selezionare se eseguire l'identificazione della lingua continua o all'avvio quando si esegue il riconoscimento vocale o la traduzione continua.
Nuove funzionalità
- C#/C++/Java: Servizio cognitivo di Azure per la voce SDK incorporato è ora rilasciato in anteprima pubblica controllata. Vedere documentazione di Servizio cognitivo di Azure per la voce incorporato (anteprima). È ora possibile eseguire il riconoscimento vocale e la sintesi vocale su dispositivo quando la connettività cloud è intermittente o non disponibile. Supporto nelle piattaforme Android, Linux, macOS e Windows
- MAUI C#: supporto aggiunto per le destinazioni iOS e Mac Catalyst in Servizio cognitivo di Azure per la voce SDK NuGet (problema del cliente)
- Unità: architettura x86_64 Android aggiunta al pacchetto Unity (problema del cliente)
- Go:
- Aggiunto il supporto per lo streaming diretto ALAW/MULAW per il riconoscimento vocale (problema del cliente)
- Aggiunta del supporto per PhraseListGrammar. Grazie all'utente di GitHub czkoko per il contributo della community!
- C#/C++: riconoscimento finalità supporta ora modelli di Language Understanding di conversazione in C++ e C# con orchestrazione nel servizio Microsoft
Correzioni di bug
- Correzione di un blocco occasionale in KeywordRecognizer quando si tenta di arrestarlo
- Python:
- Correzione per ottenere i risultati della valutazione della pronuncia quando è impostato
PronunciationAssessmentGranularity.FullText
(problema del cliente) - Correzione per la proprietà gender per le voci maschili non recuperate, quando si ottengono le voci di sintesi vocale
- Correzione per ottenere i risultati della valutazione della pronuncia quando è impostato
- JavaScript
- Correzione per l'analisi di alcuni file WAV registrati nei dispositivi iOS (problema del cliente)
- JS SDK ora viene compilato senza usare npm-force-resolutions (problema del cliente)
- Traduttore conversazione ora imposta correttamente l'endpoint di servizio quando si usa un'istanza speechConfig creata con SpeechConfig.fromEndpoint()
Esempi
Aggiunta di esempi che illustrano come usare Voce incorporato
Aggiunta dell'esempio di riconoscimento vocale per MAUI
Speech SDK 1.24.2: versione di novembre 2022
Nuove funzionalità
- Nessuna nuova funzionalità, solo una correzione del motore incorporata per supportare nuovi file di modello.
Correzioni di bug
- Tutte i linguaggi di programmazione
- Correzione di un problema relativo alla crittografia dei modelli di riconoscimento vocale incorporati.
Speech SDK 1.24.1: versione di novembre 2022
Nuove funzionalità
- Pacchetti pubblicati per l'anteprima di Riconoscimento vocale incorporato. Per altre informazioni, vedere https://aka.ms/embedded-speech.
Correzioni di bug
- Tutte i linguaggi di programmazione
- Correzione dell'arresto anomalo del sistema TTS incorporato quando il carattere voce non è supportato
- Correzione di stopSpeaking() non può interrompere la riproduzione in Linux (#1686)
- JavaScript SDK
- Correzione della regressione nel modo in cui la trascrizione conversazione ha determinato l'audio.
- Java
- I file POM e Javadocs aggiornati pubblicati temporaneamente in Maven Central consentono alla pipeline docs di aggiornare la documentazione di riferimento online.
- Python
- Correzione della regressione in cui Python speak_text/ssml restituisce void.
Speech SDK 1.24.0: versione di ottobre 2022
Nuove funzionalità
- Tutti i linguaggi di programmazione: AMR-WB (16khz) aggiunto all'elenco supportato di formati di output audio di sintesi vocale
- Python: pacchetto aggiunto per Linux Arm64 per le distribuzioni Linux supportate.
- C#/C++/Java/Python: supporto aggiunto per lo streaming diretto ALAW & MULAW al servizio voce (oltre al flusso PCM esistente) usando
AudioStreamWaveFormat
. - MAUI C#: pacchetto NuGet aggiornato per supportare le destinazioni Android per sviluppatori di MAUI .NET (problema del cliente)
- Mac: aggiunta di XCframework separati per Mac, che non contiene file binari iOS. Questo offre un'opzione agli sviluppatori che necessitano solo di file binari Mac usando un pacchetto XCframework più piccolo.
- Microsoft Audio Stack (MAS):
- Se si specificano angoli di forma del fascio, il suono proveniente all'esterno dell'intervallo specificato verrà eliminato meglio.
- Riduzione approssimativa del 70% delle dimensioni di
libMicrosoft.CognitiveServices.Speech.extension.mas.so
per Linux ARM32 e Linux Arm64.
- Riconoscimento finalità usando criteri di ricerca:
- Aggiungere il supporto ortografico per le lingue
fr
,de
,es
,jp
- Aggiunta del supporto integer predefinito per la lingua
es
.
- Aggiungere il supporto ortografico per le lingue
Correzioni di bug
- iOS: correzione dell'errore di sintesi vocale in iOS 16 causato da un errore di decodifica audio compressa (problema del cliente).
- JavaScript:
- Correzione del token di autenticazione che non funziona durante il recupero dell'elenco voce di sintesi vocale (problema del cliente).
- Usare l'URL dei dati per il caricamento del ruolo di lavoro (problema del cliente).
- Creare il worklet del processore audio solo quando AudioWorklet è supportato nel browser (problema del cliente). Questo è stato un contributo della comunità di William Wong. Grazie William!
- Correzione del callback riconosciuto quando
connectionMessage
di risposta LUIS è vuoto (problema del cliente). - Impostare correttamente il timeout di segmentazione del parlato.
- Riconoscimento finalità usando criteri di ricerca:
- I caratteri non JSON all'interno dei modelli vengono ora caricati correttamente.
- Correzione del problema blocco quando
recognizeOnceAsync(text)
è stato chiamato durante il riconoscimento continuo.
Speech SDK 1.23.0: versione di luglio 2022
Nuove funzionalità
- C#, C++, Java: aggiunta del supporto per le lingue
zh-cn
ezh-hk
nel riconoscimento finalità con criteri di ricerca. - C#: aggiunta del supporto per le build di .NET Framework
AnyCPU
Correzioni di bug
- Android: correzione della vulnerabilità OpenSSL CVE-2022-2068 aggiornando OpenSSL alla versione 1.1.1q
- Python: correzione dell'arresto anomalo quando si usa PushAudioInputStream
- iOS: correzione di "EXC_BAD_ACCESS: tentativo di dereferenziare il puntatore Null" come segnalato in iOS (problema di GitHub)
Speech SDK 1.22.0: versione di giugno 2022
Nuove funzionalità
- Java: API IntentRecognitionResult per getEntities(), applyLanguageModels() e recognizeOnceAsync(text) aggiunto per supportare il motore "criteri di ricerca semplice".
- Unity: aggiunta del supporto per Mac M1 (Apple Silicon) per il pacchetto Unity (problema di GitHub)
- C#: aggiunta del supporto per x86_64 per Xamarin Android (problema di GitHub)
- C#: versione minima di .NET Framework aggiornata al pacchetto V4.6.2 per SDK C# in quanto v4.6.1 è stata ritirata (vedere Criteri relativi al ciclo di vita dei componenti di Microsoft .NET Framework)
- Linux: aggiunta del supporto per Debian 11 e Ubuntu 22.04 LTS. Ubuntu 22.04 LTS richiede l'installazione manuale di libssl1.1 sia come pacchetto binario da qui (ad esempio, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb o versione successiva per x64) o tramite la compilazione da origini.
Correzioni di bug
- Piattaforma UWP: dipendenza OpenSSL rimossa dalle librerie UWP e sostituita con websocket WinRT e API HTTP per soddisfare la conformità della sicurezza e il footprint binario più piccolo.
- Mac: correzione del problema "MicrosoftCognitiveServicesSpeech Module Not Found" quando si usano progetti Swift destinati alla piattaforma macOS
- Windows, Mac: è stato risolto un problema specifico della piattaforma per cui le origini audio configurate tramite proprietà per lo streaming a una velocità in tempo reale a volte diminuivano e alla fine oltrepassavano la capacità
Esempi (GitHub)
- C#: esempi di .NET Framework aggiornati per l'uso della versione 4.6.2
- Unity: esempio di assistente virtuale risolto per Android e UWP
- Unity: esempi di Unity aggiornati per Unity versione LTS 2020
Speech SDK 1.21.0: versione di aprile 2022
Nuove funzionalità
- Java & JavaScript: aggiunta del supporto per l'identificazione continua della lingua quando si usa l'oggetto SpeechRecognizer
- JavaScript: aggiunta di API di diagnostica per abilitare la registrazione dei file a livello di registrazione della console e (solo nodo) per risolvere i problemi segnalati dai clienti da Microsoft
- Python: aggiunta del supporto per la trascrizione conversazione
- Go: aggiunta del supporto per il riconoscimento del parlante
- C++ & C#: aggiunta del supporto per un gruppo obbligatorio di parole in Riconoscimento finalità (criteri di ricerca semplici). Ad esempio: "(set|start|begin) un timer" in cui "set", "start" o "begin" devono essere presenti per la finalità da riconoscere.
- Tutti i linguaggi di programmazione, Sintesi vocale: aggiunta della proprietà duration negli eventi confine di parola. Aggiunta del supporto per il limite di punteggiatura e di frase
- Objective-C/Swift/Java: aggiunta di risultati a livello di parola nell'oggetto risultato della valutazione della pronuncia (simile a C#). L'applicazione non deve più analizzare una stringa di risultati JSON per ottenere informazioni a livello di parola (problema di GitHub)
- Piattaforma iOS: aggiunta del supporto sperimentale per l'architettura ARMv7
Correzioni di bug
- Piattaforma iOS: correzione per consentire la compilazione per la destinazione "Qualsiasi dispositivo iOS", quando si usa CocoaPod (problema di GitHub)
- Piattaforma Android: la versione di OpenSSL è stata aggiornata alla versione 1.1.1n per correggere la vulnerabilità di sicurezza CVE-2022-0778
- JavaScript: correzione del problema a causa del quale l'intestazione wav non è stata aggiornata con le dimensioni del file (problema di GitHub)
- JavaScript: correzione di scenari di conversione che causano l'interruzione dell'ID richiesta (problema di GitHub)
- JavaScript: correzione del problema durante la creazione di istanze di SpeakerAudioDestination senza flusso (problema di GitHub]
- C++: correggere le intestazioni C++ per rimuovere un avviso durante la compilazione per C++17 o versione successiva
Esempi GitHub
- Nuovi esempi di Java per il riconoscimento vocale con identificazione della lingua
- Nuovi esempi di Python e Java per la trascrizione conversazione
- Nuovo esempio di Go per il riconoscimento del parlante
- Nuovo strumento C++ e C# per Windows che enumera tutti i dispositivi di acquisizione e rendering audio, per trovare l'ID dispositivo. Questo ID è necessario per Speech SDK se si prevede di acquisire audio da o eseguire il rendering dell'audio in un dispositivo non predefinito.
Speech SDK 1.20.0: versione di gennaio 2022
Nuove funzionalità
- Objective-C, Swift e Python: aggiunta del supporto per DialogServiceConnector, usato per gli scenari di Assistente vocale.
- Python: è stato aggiunto il supporto per Python 3.10. Il supporto per Python 3.6 è stato rimosso, per il fine vita della versione 3.6 di Python.
- Unity: Speech SDK è ora supportato per le applicazioni Unity in Linux.
- C++, C#: IntentRecognizer con criteri di ricerca è ora supportato in C#. Inoltre, gli scenari con entità personalizzate, gruppi facoltativi e ruoli di entità sono ora supportati in C++ e C#.
- C++, C#: miglioramento della registrazione delle tracce di diagnostica con nuove classi FileLogger, MemoryLogger e EventLogger. I log SDK sono uno strumento importante per Microsoft per diagnosticare i problemi segnalati dai clienti. Queste nuove classi semplificano l'integrazione dei log di Speech SDK nel proprio sistema di registrazione.
- Tutti i linguaggi di programmazione: PronunciationAssessmentConfig ora dispone di proprietà per impostare l'alfabeto fonema desiderato (IPA o SAPI) e il numero N-Best Phoneme (evitando la necessità di creare un codice JSON di configurazione in base al problema di GitHub 1284). Inoltre, ora è supportato l'output a livello di sillabe.
- Android, iOS e macOS (tutti i linguaggi di programmazione): non è più necessario GStreamer per supportare reti con larghezza di banda limitata. SpeechSynthesizer usa ora le funzionalità di decodifica audio del sistema operativo per decodificare l'audio compresso trasmesso dal servizio di sintesi vocale.
- Tutti i linguaggi di programmazione: SpeechSynthesizer supporta ora tre nuovi formati Opus di output non elaborati (senza contenitore), ampiamente usati negli scenari di streaming live.
- JavaScript: aggiunta dell'API getVoicesAsync() a SpeechSynthesizer per recuperare l'elenco delle voci di sintesi supportate (problema di GitHub 1350)
- JavaScript: aggiunta dell'API getWaveFormat() a AudioStreamFormat per supportare formati d'onda non PCM (problema GitHub 452)
- JavaScript: aggiunta di api volume getter/setter e mute()/unmute() a SpeakerAudioDestination (problema di GitHub 463)
Correzioni di bug
- C++, C#, Java, JavaScript, Objective-C e Swift: correzione per rimuovere un ritardo di 10 secondi durante l'arresto di un riconoscimento vocale che usa PushAudioInputStream. Questo è per il caso in cui non viene eseguito il push di nuovi audio dopo la chiamata a StopContinuousRecognition (problemi di GitHub 1318, 331)
- Unity in Android e piattaforma UWP: i meta file Unity sono stati corretti per UWP, Android Arm64 e sottosistema Windows per Android (WSA) Arm64 (problema di GitHub 1360)
- iOS: la compilazione dell'applicazione Speech SDK in qualsiasi dispositivo iOS quando si usa CocoaPods è stata risolta (problema di GitHub 1320)
- iOS: quando SpeechSynthesizer è configurato per l'output audio direttamente in un altoparlante, la riproduzione si arresta all'inizio in rare condizioni. Il problema è stato risolto.
- JavaScript: usare il fallback del processore di script per l'input del microfono se non viene trovato alcun worklet audio (problema di GitHub 455)
- JavaScript: aggiungere protocollo all'agente per mitigare i bug rilevati con l'integrazione di Sentry (problema di GitHub 465)
Esempi GitHub
- C++, C#, Python ed esempi Java che illustrano come ottenere risultati di riconoscimento dettagliati. I dettagli includono risultati di riconoscimento alternativo, punteggio di attendibilità, forma lessicale, modulo normalizzato, modulo normalizzato mascherato, con tempi a livello di parola per ciascuno.
- Esempio iOS aggiunto usando AVFoundation come origine audio esterna.
- Esempio Java aggiunto per mostrare come ottenere il formato SRT (SubRip Text) usando l'evento WordBoundary.
- Esempi Android per la valutazione della pronuncia.
- C++, C# che mostra l'utilizzo delle nuove classi di registrazione diagnostica.
Speech SDK 1.19.0: versione di novembre 2021
Caratteristiche principali
Il servizio Riconoscimento del parlante è ora in disponibilità generale. Le API Speech SDK sono disponibili in C++, C#, Java e JavaScript. Grazie al riconoscimento del parlante, è possibile verificare e identificare accuratamente i parlanti in base alle loro caratteristiche vocali uniche. Per altre informazioni su questo argomento, vedere la documentazione.
È stato eliminato il supporto per Ubuntu 16.04 insieme ad Azure DevOps e GitHub. Ubuntu 16.04 ha raggiunto il fine vita ad aprile 2021. Eseguire la migrazione dei flussi di lavoro di Ubuntu 16.04 a Ubuntu 18.04 o versioni successive.
Il collegamento OpenSSL nei file binari Linux è cambiato in dinamico. Le dimensioni binarie di Linux sono state ridotte di circa il 50%.
È stato aggiunto il supporto del processore basato su ARM Mac M1.
Nuove funzionalità
C++/C#/Java: nuove API aggiunte per abilitare il supporto dell'elaborazione audio per l'input vocale con Microsoft Audio Stack. Documentazione disponibile qui.
C++: nuove API per il riconoscimento finalità per facilitare criteri di ricerca più avanzati. Sono incluse le entità List e Prebuilt Integer, nonché il supporto per il raggruppamento di finalità ed entità come modelli (documentazione, aggiornamenti ed esempi sono in fase di sviluppo e verranno pubblicati prossimamente).
Mac: supporto per il processore basato su Arm64 (M1) per i pacchetti CocoaPod, Python, Java e NuGet correlati al problema di GitHub 1244.
iOS/Mac: i file binari iOS e macOS sono ora inseriti in pacchetti xcframework correlati al problema di GitHub 919.
iOS/Mac: supporto per Mac Catalyst al problema di GitHub 1171.
Linux: nuovo pacchetto tar aggiunto per CentOS7 Informazioni su Speech SDK. Il pacchetto .tar Linux ora contiene librerie specifiche per RHEL/CentOS 7 in
lib/centos7-x64
. Le librerie speech SDK in lib/x64 sono ancora applicabili a tutte le altre distribuzioni Linux x64 supportate (anche RHEL/CentOS 8) e non funzioneranno in RHEL/CentOS 7.JavaScript: API VoiceProfile & SpeakerRecognizer rese asincrone/awaitable.
JavaScript: aggiunta del supporto per le aree di Azure per enti pubblici degli Stati Uniti.
Windows: aggiunta del supporto per la riproduzione nella piattaforma UWP (Universal Windows Platform).
Correzioni di bug
Android: aggiornamento della sicurezza OpenSSL (aggiornato alla versione 1.1.1l) per pacchetti Android.
Python: bug risolto in cui la selezione del dispositivo altoparlante in Python ha esito negativo.
Core: riconnessione automatica quando un tentativo di connessione non riesce.
iOS: compressione audio disabilitata nei pacchetti iOS a causa di problemi di instabilità e compilazione bitcode quando si usa GStreamer. I dettagli sono disponibili tramite il problema di GitHub 1209.
Esempi GitHub
Mac/iOS: esempi aggiornati e guide introduttive per l'uso del pacchetto xcframework.
.NET: esempi aggiornati per l'uso della versione .NET Core 3.1.
JavaScript: aggiunta dell'esempio per gli assistenti vocali.
Speech SDK 1.18.0: versione di luglio 2021
Nota: per iniziare a usare Speech SDK qui.
Riepilogo delle evidenziazioni
- Ubuntu 16.04 ha raggiunto il fine vita nel mese di aprile 2021. Con Azure DevOps e GitHub, il supporto verrà interrotto per la versione 16.04 di settembre 2021. Prima di allora, eseguire la migrazione dei flussi di lavoro ubuntu-16.04 a ubuntu-18.04 o versioni successive.
Nuove funzionalità
- C++: i criteri di linguaggio semplici corrispondenti allo strumento di riconoscimento finalità ora semplificano l'implementazione di scenari di riconoscimento finalità semplici.
- C++/C#/Java: è stata aggiunta una nuova API,
GetActivationPhrasesAsync()
alla classeVoiceProfileClient
per ricevere un elenco di frasi di attivazione valide nella fase di Registrazione riconoscimento del parlante per scenari di riconoscimento indipendenti.- Importante: la funzionalità Riconoscimento del parlante è disponibile in anteprima. Tutti i profili vocali creati in anteprima verranno sospesi 90 giorni dopo che la funzionalità Riconoscimento del parlante viene spostata dall'anteprima in Disponibilità generale. A questo punto, i profili voce di anteprima smetteranno di funzionare.
- Python: aggiunta del supporto per Identificazione della lingua continua (LID) negli oggetti
SpeechRecognizer
eTranslationRecognizer
esistenti. - Python: aggiunta di un nuovo oggetto Python denominato
SourceLanguageRecognizer
per eseguire un'unica LID (senza riconoscimento o traduzione). - JavaScript: API
getActivationPhrasesAsync
aggiunta alla classeVoiceProfileClient
per ricevere un elenco di frasi di attivazione valide nella fase di registrazione Riconoscimento del parlante per scenari di riconoscimento indipendenti. - API
enrollProfileAsync
di JavaScriptVoiceProfileClient
è ora async awaitable. Vedere questo codice di identificazione indipendente, ad esempio utilizzo.
Miglioramenti
- Java: supporto AutoCloseable aggiunto a molti oggetti Java. Il modello try-with-resources è ora supportato per le risorse. Vedere questo esempio che usa try-with-resources. Per informazioni su questo criterio, vedere anche l'esercitazione sulla documentazione di Oracle Java per Istruzione try-with-resources.
- Il footprint del disk è stato notevolmente ridotto per molte piattaforme e architetture. Esempi per il file binario
Microsoft.CognitiveServices.Speech.core
: x64 Linux è minore di 475 KB (riduzione dell'8,0%) piattaforma UWP di Windows Arm64 è minore di 464 KB (riduzione del 11,5%) Windows x86 è minore di 343 KB (riduzione del 17,5%) e x64 Windows è minore di 451 KB (riduzione del 19,4%).
Correzioni di bug
- Java: correzione dell'errore di sintesi quando il testo di sintesi contiene caratteri surrogati. Per i dettagli, vedere qui.
- JavaScript: l'elaborazione audio del microfono del browser ora usa
AudioWorkletNode
anzichéScriptProcessorNode
, deprecato. Per i dettagli, vedere qui. - JavaScript: mantenere correttamente attive le conversazioni durante gli scenari di traduzione delle conversazioni a esecuzione prolungata. Per i dettagli, vedere qui.
- JavaScript: è stato risolto un problema relativo alla riconnessione dello strumento di riconoscimento a un flusso multimediale nel riconoscimento continuo. Per i dettagli, vedere qui.
- JavaScript: è stato risolto un problema relativo alla riconnessione del riconoscimento a un pushStream nel riconoscimento continuo. Per i dettagli, vedere qui.
- JavaScript: correzione del calcolo dell'offset a livello di parola nei risultati dettagliati del riconoscimento. Per i dettagli, vedere qui.
Esempi
- Esempi di avvio rapido Java aggiornati qui.
- Esempi di riconoscimento del parlante JavaScript aggiornati per mostrare un nuovo utilizzo di
enrollProfileAsync()
. Vedere gli esempi qui.
Speech SDK 1.17.0: versione di maggio 2021
Nota
Attività iniziali per l’uso di Speech SDK qui.
Riepilogo delle evidenziazioni
- Footprint più piccolo: si continua a ridurre la memoria e il footprint del disco di Speech SDK e dei relativi componenti.
- Una nuova API di identificazione della lingua autonoma consente di riconoscere la lingua che viene parlata.
- Sviluppare applicazioni di gioco e di realtà mista abilitate per il riconoscimento vocale usando Unity in macOS.
- È ora possibile usare la sintesi vocale oltre al riconoscimento vocale dal linguaggio di programmazione Go.
- Diverse correzioni di bug per risolvere i problemi che gli UTENTI, nostri stimati clienti, hanno contrassegnato su GitHub! GRAZIE! Continua a inviare commenti e suggerimenti!
Nuove funzionalità
- C++/C#: nuovo in Rilevamento lingua autonomo all’avvio e continuo tramite l'API
SourceLanguageRecognizer
. Se si desidera solo rilevare le lingue pronunciate nel contenuto audio, questa è l'API da usare. Vedere i dettagli per C++ e C#. - C++/C#: riconoscimento vocale e riconoscimento della traduzione ora supportano identificazione della lingua sia all’avvio che continuativo, in modo da poter determinare a livello di programmazione quali lingue vengono parlate prima che siano trascritte o tradotte. Vedere la documentazione qui per riconoscimento vocale e qui per la traduzione vocale.
- C#: aggiunta del supporto per Unity a macOS (x64). Questo sblocca i casi d'uso di riconoscimento vocale e sintesi vocale nella realtà mista e nei giochi!
- Go: è stato aggiunto il supporto per la sintesi vocale al linguaggio di programmazione Go per renderla disponibile in altri casi d'uso. Vedere avvio rapido documentazione di riferimento.
- C++/C#/Java/Python/Objective-C/Go: il sintetizzatore vocale ora supporta l'oggetto
connection
. Questo consente di gestire e monitorare la connessione al servizio Voce ed è particolarmente utile per la pre-connessione per ridurre la latenza. Vedere la documentazione qui. - C++/C#/Java/Python/Objective-C/Go: viene ora esposta la latenza e il tempo di sottocarico in
SpeechSynthesisResult
per monitorare e diagnosticare i problemi di latenza di sintesi vocale. Vedere i dettagli per C++, C#, Java, Python, Objective-C e Go. - C++/C#/Java/Python/Objective-C: la sintesi vocale ora usa le voci neurali per impostazione predefinita quando non si specifica una voce da usare. In questo modo si ottiene, per impostazione predefinita, un output di fedeltà maggiore; tuttavia aumenta anche il prezzo predefinito. È possibile specificare una tra oltre 70 voci standard o oltre 130 voci neurali per modificare il valore predefinito.
- C++/C#/Java/Python/Objective-C/Go: è stata aggiunta una proprietà Gender alle informazioni vocali di sintesi per semplificare la selezione delle voci in base al genere. Questo risolve il problema di GitHub #1055.
- C++, C#, Java, JavaScript: ora è supportato
retrieveEnrollmentResultAsync
,getAuthorizationPhrasesAsync
egetAllProfilesAsync()
in Riconoscimento del parlante per semplificare la gestione degli utenti di tutti i profili vocali per un determinato account. Vedere la documentazione per C++, C#, Java, JavaScript. Questo risolve il problema di GitHub #338. - JavaScript: è stato aggiunto un nuovo tentativo per gli errori di connessione che renderanno più solide le applicazioni vocali basate su JavaScript.
Miglioramenti
- I file binari di Linux e Android Speech SDK sono stati aggiornati per usare la versione più recente di OpenSSL (1.1.1k)
- Miglioramenti delle dimensioni del codice:
- Language Understanding è ora suddiviso in una libreria "lu" separata.
- Le dimensioni binarie di Windows x64 core sono diminuite del 14,4%.
- Le dimensioni binarie core di Android Arm64 sono diminuite del 13,7%.
- sono diminuite le dimensioni anche di altri componenti.
Correzioni di bug
- Tutti: è stato risolto il problema di GitHub #842 per ServiceTimeout. È ora possibile trascrivere file audio lunghi usando Speech SDK senza la connessione al servizio che termina con questo errore. Tuttavia, è comunque consigliabile usare la trascrizione batch per i file lunghi.
- C#: è stato risolto il problema di GitHub #947 in cui nessun input vocale poteva lasciare l'app in uno stato non valido.
- Java: correzione del problema di GitHub #997 in cui Speech SDK per Java 1.16 si arresta in modo anomalo quando si usa DialogServiceConnector senza una connessione di rete o una chiave di sottoscrizione non valida.
- Correzione di un arresto anomalo del sistema quando arresta bruscamente il riconoscimento vocale (ad esempio, usando CTRL+C nell'app console).
- Java: è stata aggiunta una correzione per eliminare i file temporanei in Windows quando si usa Speech SDK per Java.
- Java: è stato risolto il problema di GitHub #994 in cui la chiamata
DialogServiceConnector.stopListeningAsync
potrebbe generare un errore. - Java: è stato risolto un problema del cliente nell'avvio rapido dell'assistente virtuale.
- JavaScript: è stato risolto il problema di GitHub #366 in cui
ConversationTranslator
generava errore 'this.cancelSpeech isn't a function'. - JavaScript: è stato risolto il problema di GitHub #298 in cui l'esempio di 'Get result as an in-memory stream' riproduceva il suono ad alta voce.
- JavaScript: è stato risolto il problema di GitHub #350 in cui la chiamata a
AudioConfig
potrebbe causare un errore 'ReferenceError: MediaStream isn't defined'. - JavaScript: correzione di un avviso UnhandledPromiseRejection in Node.js per sessioni con esecuzione prolungata.
Esempi
- La documentazione degli esempi di Unity aggiornata per macOS qui.
- È ora disponibile un esempio React Native per il servizio riconoscimento vocale di Voce di Azure AI qui.
Speech SDK 1.16.0: versione di marzo 2021
Nota
Speech SDK in Windows dipende dalla condivisione di Microsoft Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019. Scaricarla qui.
Nuove funzionalità
- C++/C#/Java/Python: spostato nella versione più recente di GStreamer (1.18.3) per aggiungere il supporto per la trascrizione di qualsiasi formato multimediale in Windows, Linux e Android. Vedere la documentazione qui.
- C++/C#/Java/Objective-C/Python: aggiunta del supporto per la decodifica dell'audio TTS/sintetizzato compresso nell'SDK. Se si imposta il formato audio di output su PCM e GStreamer è disponibile nel sistema, l'SDK richiederà automaticamente l'audio compresso dal servizio per risparmiare larghezza di banda e decodificare l'audio nel client. Per disabilitare questa funzionalità, è possibile impostare
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
sufalse
. Dettagli per C++, C#, Java, Objective-C, Python. - JavaScript: Node.js gli utenti possono ora usare l’
AudioConfig.fromWavFileInput
API. Questo risolve il problema di GitHub #252. - C++/C#/Java/Objective-C/Python: aggiunta del metodo
GetVoicesAsync()
per TTS per restituire tutte le voci di sintesi disponibili. Dettagli per C++, C#, Java, Objective-C e Python. - C++/C#/Java/JavaScript/Objective-C/Python: aggiunta dell'evento
VisemeReceived
per la sintesi vocale/TTS per restituire l'animazione visema sincrona. Vedere la documentazione qui. - C++/C#/Java/JavaScript/Objective-C/Python: aggiunta dell'evento
BookmarkReached
per TTS. È possibile impostare i segnalibri nel file SSML di input e ottenere gli scostamenti audio per ogni segnalibro. Vedere la documentazione qui. - Java: aggiunta del supporto per le API di riconoscimento del parlante. Per i dettagli, vedere qui.
- C++/C#/Java/JavaScript/Objective-C/Python: aggiunta di due nuovi formati audio di output con contenitore WebM per TTS (Webm16Khz16BitMonoOpus e Webm24Khz16BitMonoOpus). Questi sono formati migliori per lo streaming audio con codec Opus. Dettagli per C++, C#, Java, JavaScript, Objective-C, Python.
- C++/C#/Java: aggiunta del supporto per il recupero del profilo vocale per lo scenario di Riconoscimento del parlante. Dettagli per C++, C#e Java.
- C++/C#/Java/Objective-C/Python: aggiunta del supporto per una libreria condivisa separata per il microfono audio e il controllo altoparlante. In questo modo lo sviluppatore può usare l'SDK in ambienti che non hanno dipendenze necessarie per la libreria audio.
- Objective-C/Swift: aggiunta del supporto per il framework del modulo con l'intestazione Umbrella. Questo consente allo sviluppatore di importare Speech SDK come modulo nelle app Objective-C/Swift iOS/Mac. Questo risolve il problema di GitHub #452.
- Python: aggiunta del supporto per Python 3.9 ed è stato eliminato il supporto per Python 3.5 per il fine vita di Python per 3.5.
Problemi noti
- C++/C#/Java:
DialogServiceConnector
non può usare unCustomCommandsConfig
per accedere a un'applicazione comandi personalizzati e verrà invece visualizzato un errore di connessione. Questa operazione può essere eseguita aggiungendo manualmente l'ID applicazione alla richiesta conconfig.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
. Il comportamento previsto diCustomCommandsConfig
verrà ripristinato nella versione successiva.
Miglioramenti
- Nell'ambito del nostro impegno multi-rilascio per ridurre l'utilizzo della memoria e il footprint del disco di Speech SDK, i file binari Android sono ora più piccoli dal 3% al 5%.
- Miglioramento di accuratezza, leggibilità e sezioni della documentazione di riferimento per C# qui.
Correzioni di bug
- JavaScript: le intestazioni di file WAV di grandi dimensioni vengono ora analizzate correttamente (aumenta la sezione dell'intestazione a 512 byte). Questo risolve il problema di GitHub #962.
- JavaScript: correzione del problema di temporizzazione del microfono se il flusso del microfono termina prima di arrestare il riconoscimento, risolvendo un problema con il riconoscimento vocale che non funziona in Firefox.
- JavaScript: ora viene gestita correttamente la promessa di inizializzazione dell’handle quando il browser forza la disattivazione del microfono prima del completamento di turnOn.
- JavaScript: è stata sostituita la dipendenza dell'URL con url-parse. Questo risolve il problema di GitHub #264.
- Android: i callback fissi non funzionano quando
minifyEnabled
è impostato su true. - C++/C#/Java/Objective-C/Python:
TCP_NODELAY
verrà impostato correttamente sul socket I/O sottostante per TTS per ridurre la latenza. - C++/C#/Java/Python/Objective-C/Go: correzione di un arresto anomalo del sistema occasionale quando il riconoscimento è stato eliminato subito dopo l'avvio di un riconoscimento.
- C++/C#/Java: correzione di un arresto anomalo del sistema occasionale nella distruzione del riconoscimento del parlante.
Esempi
- JavaScript: esempi del browser non richiedono più il download del file di libreria JavaScript separato.
Speech SDK 1.15.0: versione di gennaio 2021
Nota
Speech SDK in Windows dipende dalla condivisione di Microsoft Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019. Scaricarla qui.
Riepilogo delle evidenziazioni
- Memoria e footprint del disco più ridotti rendono l'SDK più efficiente.
- Formati di output con fedeltà superiore disponibili per l'anteprima privata della voce neurale personalizzata.
- Riconoscimento finalità può ora ottenere un risultato maggiore rispetto alla finalità principale, offrendo la possibilità di eseguire una valutazione separata sulla finalità del cliente.
- Gli assistenti vocali e i bot sono ora più facili da configurare ed è possibile impedirne immediatamente l'ascolto ed esercitare un maggiore controllo sulla modalità di risposta agli errori.
- Miglioramento delle prestazioni dei dispositivi grazie alla compressione facoltativa.
- Usare Speech SDK in Windows ARM/Arm64.
- Miglioramento del debug di basso livello.
- La funzionalità di valutazione della pronuncia è ora più ampiamente disponibile.
- Diverse correzioni di bug per risolvere i problemi che gli UTENTI, nostri stimati clienti, hanno contrassegnato su GitHub! GRAZIE! Continua a inviare commenti e suggerimenti!
Miglioramenti
- Speech SDK è ora più efficiente e leggero. È stato avviato uno lavoro richiesto multi-rilascio per ridurre l'utilizzo della memoria e il footprint del disco di Speech SDK. Come primo passo sono state apportate riduzioni significative delle dimensioni dei file nelle librerie condivise nella maggior parte delle piattaforme. Rispetto alla versione 1.14:
- Le librerie Windows compatibili con la piattaforma UWP a 64 bit sono circa il 30% più piccole.
- Per le librerie Windows a 32 bit non si vede ancora un miglioramento delle dimensioni.
- Le librerie Linux sono ridotte del 20-25%.
- Le librerie Android sono ridotte del 3-5%.
Nuove funzionalità
- Tutto: nuovi formati di output a 48 KHz disponibili per l'anteprima privata della voce neurale personalizzata tramite l'API di sintesi vocale TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
- Tutto: la voce personalizzata è anche più semplice da usare. Aggiunta del supporto per l'impostazione della voce personalizzata tramite
EndpointId
(C++, C#, Java, JavaScript, Objective-C, Python). Prima di questa modifica, gli utenti voce personalizzati devono impostare l'URL dell'endpoint tramite il metodoFromEndpoint
. Ora i clienti possono usare il metodoFromSubscription
proprio come le voci predefinite e quindi specificare l'ID di distribuzione impostandoEndpointId
. Questo semplifica la configurazione di voci personalizzate. - C++/C#/Java/Objective-C/Python: ottenere più della finalità principale da
IntentRecognizer
. Supporta ora la configurazione del risultato JSON contenente tutte le finalità e non solo la finalità di punteggio principale tramite il metodoLanguageUnderstandingModel FromEndpoint
usando il parametro URIverbose=true
. Questo risolve il problema di GitHub #880. Vedere la documentazione aggiornata qui. - C++/C#/Java: far sì che l'assistente vocale o il bot arrestino immediatamente l'ascolto.
DialogServiceConnector
(C++, C#, Java) ha ora un metodoStopListeningAsync()
per accompagnareListenOnceAsync()
. Questo arresterà immediatamente l'acquisizione audio e attenderà normalmente un risultato, rendendolo perfetto per l'uso con scenari di pressione del pulsante "stop now". - C++/C#/Java/JavaScript: far sì che l'assistente vocale o il bot reagiscano meglio agli errori di sistema sottostanti.
DialogServiceConnector
(C++, C#, Java, JavaScript) include ora un nuovo gestore eventiTurnStatusReceived
. Questi eventi facoltativi corrispondono a ogni risoluzioneITurnContext
nel bot e segnalano errori di esecuzione quando si verificano, ad esempio, a causa di un'eccezione, un timeout o un rilascio di rete non gestiti tra Direct Line Speech e il bot.TurnStatusReceived
semplifica la risposta alle condizioni di errore. Ad esempio, se un bot richiede troppo tempo su una query di database back-end (ad esempio, la ricerca di un prodotto),TurnStatusReceived
fa sì che il client lo sappia per ripetere la richiesta con "spiacente, non ho capito bene, potrebbe essere necessario riprovare" o qualcosa di simile. - C++/C#: usare Speech SDK in più piattaforme. Il pacchetto NuGet di Speech SDK ora supporta file binari nativi di Windows ARM/Arm64 (la piattaforma UWP è già supportata) per rendere Speech SDK più utile su più tipi di computer.
- Java:
DialogServiceConnector
ora include un metodosetSpeechActivityTemplate()
che in precedenza era involontariamente escluso dal linguaggio. Equivale a impostare la proprietàConversation_Speech_Activity_Template
e richiederà che tutte le future attività di Bot Framework originate dal servizio Direct Line Speech uniscano il contenuto fornito nei payload JSON. - Java: è stato migliorato il debug di basso livello. La classe
Connection
include ora un eventoMessageReceived
, simile ad altri linguaggi di programmazione (C++, C#). Questo evento offre accesso di basso livello ai dati in ingresso dal servizio e può essere utile per la diagnostica e il debug. - JavaScript: configurazione semplificata per assistenti vocali e bot tramite
BotFrameworkConfig
, che ora include i metodi factoryfromHost()
efromEndpoint()
, i quali semplificano l'uso di posizioni del servizio personalizzate rispetto all'impostazione manuale delle proprietà. È stata standardizzata anche la specifica facoltativa dibotId
per usare un bot non predefinito nelle factory di configurazione. - JavaScript: miglioramento delle prestazioni del dispositivo tramite la proprietà di controllo stringa aggiunta per la compressione WebSocket. Per motivi di prestazioni, la compressione websocket è stata disabilitata per impostazione predefinita. Può essere riabilitato per scenari a larghezza di banda ridotta. Altri dettagli sono disponibili qui. Questo risolve il problema di GitHub #242.
- JavaScript: aggiunta del supporto per la valutazione lPronunciation per abilitare la valutazione della pronuncia vocale. Vedere la guida introduttiva qui.
Correzioni di bug
- Tutto (ad eccezione di JavaScript): correzione di una regressione nella versione 1.14, in cui la memoria era allocata dal riconoscitore.
- C++: è stato risolto un problema di Garbage Collection con
DialogServiceConnector
, risolvendo il problema di GitHub #794. - C#: è stato risolto un problema relativo all'arresto del thread che causava il blocco degli oggetti per circa un secondo, quando viene eliminato.
- C++/C#/Java: correzione di un'eccezione che impedisce a un'applicazione di impostare il token di autorizzazione vocale o il modello di attività più volte in un
DialogServiceConnector
. - C++/C#/Java: correzione di un arresto anomalo del sistema di riconoscimento a causa di una race condition in fase di disinstallazione.
- JavaScript:
DialogServiceConnector
non rispettava in precedenza il parametro facoltativobotId
specificato nelle factory diBotFrameworkConfig
. Questo ha reso necessario impostare manualmente il parametro della stringa di querybotId
per usare un bot non predefinito. Il bug è stato corretto e i valoribotId
forniti alle factory diBotFrameworkConfig
verranno rispettati e usati, inclusi i nuovi aggiuntifromHost()
efromEndpoint()
. Questo vale anche per il parametroapplicationId
perCustomCommandsConfig
. - JavaScript: è stato risolto il problema di GitHub #881, consentendo il riutilizzo dell’oggetto di riconoscimento.
- JavaScript: è stato risolto un problema per cui SKD inviava
speech.config
più volte in una sessione TTS, sprecando la larghezza di banda. - JavaScript: gestione semplificata degli errori sull'autorizzazione del microfono, consentendo un messaggio più descrittivo quando l'utente non ha consentito l'input del microfono nel proprio browser.
- JavaScript: è stato risolto il problema di GitHub #249 in cui gli errori di tipo in
ConversationTranslator
eConversationTranscriber
causavano un errore di compilazione per gli utenti TypeScript. - Objective-C: è stato risolto un problema per cui la build GStreamer non è riuscita per iOS in Xcode 11.4, risolvendo il problema di GitHub #911.
- Python: è stato risolto il problema di GitHub #870, rimuovendo "DeprecationWarning: the imp module is deprecated in favor of importlib".
Esempi
- Esempio da file per il browser JavaScript ora usa i file per il riconoscimento vocale. Questo risolve il problema di GitHub #884.
Speech SDK 1.14.0: versione di ottobre 2020
Nota
Speech SDK in Windows dipende dalla condivisione di Microsoft Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019. Scaricarla qui.
Nuove funzionalità
- Linux: aggiunta del supporto per Debian 10 e Ubuntu 20.04 LTS.
- Python/Objective-C: aggiunta del supporto per l'API
KeywordRecognizer
. La documentazione sarà disponibile qui. - C++/Java/C#: aggiunta del supporto per impostare qualsiasi chiave/valore
HttpHeader
tramiteServicePropertyChannel::HttpHeader
. - JavaScript: aggiunta del supporto per l'API
ConversationTranscriber
. La documentazione è disponibile qui. - C++/C#: aggiunta di un nuovo metodo
AudioDataStream FromWavFileInput
(per leggere i file .WAV) qui (C++) e qui (C#). - C++/C#/Java/Python/Objective-C/Swift: aggiunta di un metodo
stopSpeakingAsync()
per arrestare la sintesi vocale. Leggere la documentazione di riferimento qui (C++), qui (C#), qui (Java), qui (Python) e qui (Objective-C/Swift). - C#, C++, Java: aggiunta di una funzione
FromDialogServiceConnector()
alla classeConnection
che può essere usata per monitorare gli eventi di connessione e disconnessione perDialogServiceConnector
. Leggere la documentazione di riferimento qui (C#), qui (C++) e qui (Java). - C++/C#/Java/Python/Objective-C/Swift: aggiunta del supporto per la valutazione della pronuncia, che valuta la pronuncia del parlato e fornisce commenti e suggerimenti per l'accuratezza e la fluidità dell'audio parlato. Leggi la documentazione, disponibile qui.
Modifica
- JavaScript: PullAudioOutputStream.read() ha una modifica del tipo restituito da una promessa interna a una promessa JavaScript nativa.
Correzioni di bug
- Tutto: correzione della regressione 1.13 in
SetServiceProperty
dove i valori con determinati caratteri speciali sono stati ignorati. - C#: correzione degli esempi di console di Windows in Visual Studio 2019 che non riescono a trovare DLL native.
- C#: correzione dell'arresto anomalo del sistema con gestione della memoria se il flusso viene usato come input
KeywordRecognizer
. - ObjectiveC/Swift: correzione dell'arresto anomalo del sistema con gestione della memoria se il flusso viene usato come input del riconoscimento.
- Windows: correzione del problema di coesistenza con BT HFP/A2DP nella piattaforma UWP.
- JavaScript: correzione del mapping degli ID sessione per migliorare la registrazione e facilitare le correlazioni di debug/servizio interne.
- JavaScript: aggiunta della correzione per
DialogServiceConnector
che disabilita le chiamateListenOnce
dopo la prima chiamata. - JavaScript: è stato risolto un problema per cui l'output dei risultati sarebbe sempre "semplice".
- JavaScript: è stato risolto un problema di riconoscimento continuo in Safari in macOS.
- JavaScript: mitigazione del carico della CPU per uno scenario di velocità effettiva elevata delle richieste.
- JavaScript: consente l'accesso ai dettagli del risultato della registrazione del profilo Voce.
- JavaScript: aggiunta della correzione per il riconoscimento continuo in
IntentRecognizer
. - C++/C#/Java/Python/Swift/ObjectiveC: risolto l'URL non corretto per australiaeast e brazilsouth in
IntentRecognizer
. - C++/C#: aggiunta di
VoiceProfileType
come argomento durante la creazione di un oggettoVoiceProfile
. - C++/C#/Java/Python/Swift/ObjectiveC: correzione di potenziali
SPX_INVALID_ARG
durante il tentativo di leggereAudioDataStream
da una determinata posizione. - IOS: correzione dell'arresto anomalo del sistema con il riconoscimento vocale in Unity
Esempi
- ObjectiveC: aggiunta di esempio per il riconoscimento delle parole chiave qui.
- C#/JavaScript: aggiunta della guida introduttiva per la trascrizione della conversazione qui (C#) e qui (JavaScript).
- C++/C#/Java/Python/Swift/ObjectiveC: aggiunta di un esempio per la valutazione della pronuncia qui
Problema noto
- Per impostazione predefinita, il certificato DigiCert Global Root G2 non è supportato in HoloLens 2 e Android 4.4 (KitKat) e deve essere aggiunto al sistema per rendere funzionale Speech SDK. Il certificato verrà aggiunto alle immagini del sistema operativo HoloLens 2 prossimamente. I clienti Android 4.4 devono aggiungere il certificato aggiornato al sistema.
Test di COVID-19 risolti
A causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale come di consueto. Non sono state apportate modifiche che riteniamo potrebbero aver danneggiato qualcosa e tutti i test automatizzati sono stati superati. Nell’evento improbabile che si sia perso qualcosa, ti preghiamo di segnalarlo su GitHub.
Riguardati, andrà tutto bene!
Speech SDK 1.13.0: versione di luglio 2020
Nota
Speech SDK in Windows dipende dalla condivisione di Microsoft Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019. Scaricare e installare l'app da qui.
Nuove funzionalità
- C#: aggiunta del supporto per la trascrizione conversazione asincrona. La documentazione è disponibile qui.
- JavaScript: è stato aggiunto il supporto riconoscimento del parlante sia per browser che per Node.js.
- JavaScript: aggiunta del supporto per l'identificazione del linguaggio/ID lingua. Vedere la documentazione qui.
- Objective-C: aggiunta del supporto per conversazione multi-dispositivo e trascrizione conversazione.
- Python: aggiunta del supporto audio compresso per Python in Windows e Linux. Vedere la documentazione qui.
Correzioni di bug
- Tutto: è stato risolto un problema che causava il mancato avanzamento dei flussi da parte di KeywordRecognizer dopo un riconoscimento.
- Tutto: è stato risolto un problema che causava il mancato contenimento della parola chiave del flusso ottenuto da KeywordRecognitionResult.
- Tutto: è stato risolto un problema per cui SendMessageAsync non invia effettivamente il messaggio in transito dopo che gli utenti terminano l'attesa.
- Tutto: è stato risolto un arresto anomalo nelle API di Riconoscimento del parlante quando gli utenti chiamano il metodo VoiceProfileClient::SpeakerRecEnrollProfileAsync più volte senza attendere il completamento delle chiamate.
- Tutto: correzione dell'abilitazione della registrazione dei file nelle classi VoiceProfileClient e SpeakerRecognizer.
- JavaScript: è stato risolto un problema relativo alla limitazione quando il browser è ridotto a icona.
- JavaScript: è stato risolto un problema con una perdita di memoria nei flussi.
- JavaScript: aggiunta della memorizzazione nella cache per le risposte OCSP da NodeJS.
- Java: è stato risolto un problema che causava sempre la restituzione di 0 dei campi BigInteger.
- iOS: è stato risolto un problema con la pubblicazione di app basate su Speech SDK nell'App Store iOS.
Esempi
- C++: è stato aggiunto il codice di esempio per il riconoscimento del parlante qui.
Test di COVID-19 risolti
A causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale come di consueto. Non sono state apportate modifiche che riteniamo potrebbero aver danneggiato qualcosa e tutti i test automatizzati sono stati superati. Nell’evento improbabile che si sia perso qualcosa, ti preghiamo di segnalarlo su GitHub.
Riguardati, andrà tutto bene!
Speech SDK 1.12.1: versione di giugno 2020
Nuove funzionalità
- C#, C++: anteprima riconoscimento del parlante: questa funzionalità abilita l'identificazione voce (chi sta parlando?) e la verifica voce (è il parlante che sostiene di essere?). Vedere la documentazione di panoramica.
Correzioni di bug
- C#, C++: risolta la registrazione del microfono che non funzionava nella versione 1.12 in Riconoscimento del parlante.
- JavaScript: correzioni per la sintesi vocale in Firefox e Safari in macOS e iOS.
- Correzione dell'arresto anomalo di violazione di accesso del verificatore dell'applicazione Windows per la trascrizione di una conversazione usando un flusso a otto canali.
- Correzione dell'arresto anomalo di violazione di accesso del verificatore dell'applicazione Windows sulla traduzione di conversazioni multi-dispositivo.
Esempi
- C#: esempio di codice per il riconoscimento del parlante.
- C++: esempio di codice per il riconoscimento del parlante.
- Java: esempio di codice per il riconoscimento finalità in Android.
Test di COVID-19 risolti
A causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale come di consueto. Non sono state apportate modifiche che riteniamo potrebbero aver danneggiato qualcosa e tutti i test automatizzati sono stati superati. Nell’evento improbabile che si sia perso qualcosa, ti preghiamo di segnalarlo su GitHub.
Riguardati, andrà tutto bene!
Speech SDK 1.12.0: versione di maggio 2020
Nuove funzionalità
- Go: nuovo supporto per il linguaggio di programmazione Go per riconoscimento vocale e assistente vocale personalizzato. Configurare l'ambiente di sviluppo qui. Per il codice di esempio, vedere la sezione Esempi di seguito.
- JavaScript: aggiunta del supporto browser per la sintesi vocale. La documentazione è disponibile qui.
- C++, C#, Java: nuove API e oggetti
KeywordRecognizer
supportati nelle piattaforme Windows, Android, Linux e iOS. Leggi la documentazione, disponibile qui. Per il codice di esempio, vedere la sezione Esempi di seguito. - Java: aggiunta di una conversazione multi-dispositivo con supporto per la traduzione. Vedere la documentazione di riferimento qui.
Miglioramenti e ottimizzazioni
- JavaScript: implementazione del microfono del browser ottimizzato che migliora l'accuratezza del riconoscimento vocale.
- Java: binding di refactoring che usano l'implementazione JNI diretta senza SWIG. Questa modifica riduce di 10 volte le dimensioni delle associazioni per tutti i pacchetti Java usati per Windows, Android, Linux e Mac e semplifica ulteriormente lo sviluppo dell'implementazione java di Speech SDK.
- Linux: aggiornamento documentazione del supporto con le note specifiche di RHEL 7 più recenti.
- Miglioramento della logica di connessione per tentare di connettersi più volte quando si verificano errori del servizio e di rete.
- Aggiornamento della pagina di Avvio rapido di voce in portal.azure.com per aiutare gli sviluppatori a proseguire nel percorso Voce di Azure AI.
Correzioni di bug
- C#, Java: è stato risolto un problema con il caricamento delle librerie SDK in Linux ARM (sia a 32 bit che a 64 bit).
- C#: correzione dell'eliminazione esplicita degli handle nativi per gli oggetti TranslationRecognizer, IntentRecognizer e Connection.
- C#: correzione della gestione della durata dell'input audio per l'oggetto ConversationTranscriber.
- È stato risolto un problema per cui il motivo del risultato
IntentRecognizer
non veniva impostato correttamente durante il riconoscimento finalità da frasi semplici. - È stato risolto un problema per cui l'offset dei risultati
SpeechRecognitionEventArgs
non era impostato correttamente. - Correzione di una race condition in cui SDK tentava di inviare un messaggio di rete prima di aprire la connessione Websocket. Was riproducibile per
TranslationRecognizer
durante l'aggiunta di partecipanti. - Correzione delle perdite di memoria nel motore di riconoscimento delle parole chiave.
Esempi
- Go: sono stati aggiunti avvii rapidi per il riconoscimento vocale e assistente vocale personalizzato. Trovare codice di esempio qui.
- JavaScript: sono state aggiunti avvi rapidi per Sintesi vocale, Traduzione e Riconoscimento finalità.
- Esempi di riconoscimento delle parole chiave per C# e Java (Android).
Test di COVID-19 risolti
A causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale come di consueto. Non sono state apportate modifiche che riteniamo potrebbero aver danneggiato qualcosa e tutti i test automatizzati sono stati superati. Se si è perso qualcosa, segnalarlo su GitHub.
Riguardati, andrà tutto bene!
Speech SDK 1.11.0: versione di marzo 2020
Nuove funzionalità
- Linux: aggiunta del supporto per Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
- Linux: aggiunta del supporto per .NET Core C# in Linux ARM32 e Arm64. Altre informazioni sono disponibili qui.
- C#, C++: aggiunto
UtteranceId
inConversationTranscriptionResult
, un ID coerente in tutti i risultati intermedi e nel riconoscimento vocale finale. Dettagli per C#, C++. - Python: aggiunto supporto per
Language ID
. Vedere speech_sample.py nel repository GitHub. - Windows: aggiunta del supporto del formato di input audio compresso nella piattaforma Windows per tutte le applicazioni console win32. Per i dettagli, vedere qui.
- JavaScript: supporto per la sintesi vocale (sintesi vocale) in NodeJS. Altre informazioni qui.
- JavaScript: aggiungere nuove API per abilitare l'ispezione di tutti i messaggi di invio e ricezione. Altre informazioni qui.
Correzioni di bug
- C#, C++: correzione di un problema per cui
SendMessageAsync
ora invia un messaggio binario come tipo binario. Dettagli per C#, C++. - C#, C++: è stato risolto un problema per cui l'uso dell'evento
Connection MessageReceived
potrebbe causare un arresto anomalo del sistema seRecognizer
viene eliminato prima dell'oggettoConnection
. Dettagli per C#, C++. - Android: le dimensioni del buffer audio dal microfono sono diminuite da 800 ms a 100 ms per migliorare la latenza.
- Android: è stato risolto un problema con l'emulatore Android x86 in Android Studio.
- JavaScript: aggiunta del supporto per le aree in Cina con l'API
fromSubscription
. Per i dettagli, vedere qui. - JavaScript: aggiungere altre informazioni sugli errori di connessione da NodeJS.
Esempi
- Unity: è stato corretto l'esempio pubblico di riconoscimento finalità, in cui l'importazione JSON LUIS ha esito negativo. Per i dettagli, vedere qui.
- Python: esempio aggiunto per
Language ID
. Per i dettagli, vedere qui.
Test di Covid19 ridotti: a causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale dei dispositivi come normalmente. Ad esempio, non è stato possibile testare l’input del microfono e l’output dell’altoparlante in Linux, iOS e macOS. Non sono state apportate modifiche che, riteniamo, abbiano interrotto qualcosa su queste piattaforme. Tutti i test automatizzati sono stati superati. Nel caso improbabile che si sia perso qualcosa, segnalarlo su GitHub.
Grazie per il costante supporto. Come sempre, inviare domande o commenti su GitHub o Stack Overflow.
Riguardati, andrà tutto bene!
Speech SDK 1.10.0: versione di febbraio 2020
Nuove funzionalità
- Aggiunta di pacchetti Python per supportare la nuova versione 3.8 di Python.
- Supporto di Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).
Nota
I clienti devono configurare OpenSSL in base a queste istruzioni.
- Supporto ARM32 di Linux per Debian e Ubuntu.
- DialogServiceConnector supporta ora un parametro facoltativo "bot ID" in BotFrameworkConfig. Questo parametro consente l'uso di più bot Direct Line Speech con una singola risorsa Voce. Senza il parametro specificato, verrà usato il bot predefinito (come determinato dalla pagina di configurazione del canale Direct Line Speech).
- DialogServiceConnector ha ora una proprietà SpeechActivityTemplate. Il contenuto di questa stringa JSON verrà usato da Direct Line Speech per precompilare un'ampia gamma di campi supportati in tutte le attività che raggiungono un bot Direct Line Speech, incluse le attività generate automaticamente in risposta a eventi quali il riconoscimento vocale.
- TTS ora usa la chiave di sottoscrizione per l'autenticazione, riducendo la latenza primo byte del primo risultato di sintesi dopo la creazione di un sintetizzatore.
- Modelli di riconoscimento vocale aggiornati per 19 impostazioni locali per una riduzione media della percentuale di errori di parola pari al 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). I nuovi modelli apportano miglioramenti significativi in più domini, tra cui dettatura, trascrizione call center e scenari di indicizzazione video.
Correzioni di bug
- Correzione del bug per cui la trascrizione della conversazione non risultava correttamente in attesa nelle API JAVA
- Correzione dell'emulatore x86 Android per Xamarin problema di GitHub
- Aggiungere mancante (Get|Set)Metodi di proprietà su AudioConfig
- Correzione di un bug TTS in cui non era possibile arrestare audioDataStream quando la connessione ha esito negativo
- L'uso di un endpoint senza area causerebbe errori USP per Conversation Translator
- La generazione di ID nelle applicazioni Windows universali ora usa un algoritmo GUID univoco appropriato; in precedenza e involontariamente era stata impostata su un'implementazione stub che spesso ha prodotto collisioni su grandi set di interazioni.
Esempi
- Esempio di Unity per l'uso di Speech SDK con microfono Unity e streaming in modalità push
Altre modifiche
Speech SDK 1.9.0: versione di gennaio 2020
Nuove funzionalità
- Conversazione multi-dispositivo: connettere più dispositivi alla stessa conversazione vocale o basata su testo e, facoltativamente, tradurre i messaggi inviati tra di essi. Altre informazioni sono disponibili in questo articolo.
- È stato aggiunto il supporto per il riconoscimento delle parole chiave per il pacchetto Android
.aar
e aggiunto il supporto per le versioni x86 e x64. - Objective-C: metodi
SendMessage
eSetMessageProperty
aggiunti all'oggettoConnection
. La documentazione dell'API è disponibile qui. - L'API C++ TTS supporta ora
std::wstring
come input di testo di sintesi, rimuovendo la necessità di convertire una wstring in stringa prima di passarla all'SDK. Vedere i dettagli qui. - C#: ID lingua e configurazione della lingua di origine sono ora disponibili.
- JavaScript: aggiunta di una funzionalità all'oggetto
Connection
per passare messaggi personalizzati dal servizio Voce come callbackreceivedServiceMessage
. - JavaScript: aggiunta del supporto per
FromHost API
al fine di semplificare l'uso con contenitori locali e cloud sovrani. La documentazione dell'API è disponibile qui. - JavaScript: è stato ora rispettato
NODE_TLS_REJECT_UNAUTHORIZED
grazie a un contributo di orgads. Vedere i dettagli qui.
Modifiche di rilievo
OpenSSL
è stato aggiornato alla versione 1.1.1b ed è collegato staticamente alla libreria principale di Speech SDK per Linux. Questo può causare un'interruzione se la posta in arrivoOpenSSL
non è stata installata nella directory/usr/lib/ssl
nel sistema. Per risolvere il problema consultare la nostra documentazione in Speech SDK.- Il tipo di dati restituito per C#
WordLevelTimingResult.Offset
daint
along
è stato modificato per consentire l'accesso aWordLevelTimingResults
quando i dati vocali sono più lunghi di 2 minuti. PushAudioInputStream
ePullAudioInputStream
ora inviano informazioni sull'intestazione wav al servizio Voce in base aAudioStreamFormat
, facoltativamente specificato al momento della loro creazione. I clienti devono ora usare il formato di input audio supportato. Qualsiasi altro formato otterrà risultati di riconoscimento non ottimali o potrebbe generare altri problemi.
Correzioni di bug
- Vedere l'aggiornamento
OpenSSL
in Modifiche che causano un’interruzione sopra. È stato risolto un arresto anomalo intermittente e un problema di prestazioni (contesa di blocco con carico elevato) in Linux e Java. - Java: sono stati apportati miglioramenti alla chiusura degli oggetti in scenari di concorrenza elevata.
- Ristrutturato il nostro pacchetto NuGet. Sono state rimosse le tre copie di
Microsoft.CognitiveServices.Speech.core.dll
eMicrosoft.CognitiveServices.Speech.extension.kws.dll
nelle cartelle della libreria, rendendo il pacchetto NuGet più piccolo e veloce da scaricare; inoltre sono state aggiunte le intestazioni necessarie per compilare alcune app native di C++. - Correzione degli esempi della guida introduttiva qui. Questi uscivano senza visualizzare l'eccezione "microfono non trovato" in Linux, macOS, Windows.
- Correzione dell'arresto anomalo del sistema di SDK con risultati di riconoscimento vocale lunghi in determinati percorsi di codice come questo esempio.
- Correzione dell'errore di distribuzione dell'SDK nell'ambiente app Web di Azure per risolvere questo problema del cliente.
- Correzione di un errore TTS durante l'uso di più tag
<voice>
o tag<audio>
per risolvere questo problema del cliente. - Correzione di un errore TTS 401 quando l'SDK viene ripristinato dalla sospensione.
- JavaScript: correzione di un'importazione circolare dei dati audio grazie a un contributo di euirim.
- JavaScript: aggiunta del supporto per l'impostazione delle proprietà del servizio, anche aggiunto nella versione 1.7.
- JavaScript: è stato risolto un problema per cui un errore di connessione poteva causare tentativi di riconnessione websocket continui e non riusciti.
Esempi
- Aggiunta dell'esempio di riconoscimento delle parole chiave per Android qui.
- Aggiunta dell'esempio TTS per lo scenario del server qui.
- Sono state aggiunte guide introduttive per la conversazione su più dispositivi per C# e C++ qui.
Altre modifiche
- Dimensioni ottimizzate della libreria principale dell'SDK in Android.
- L'SDK nella versione 1.9.0 e successive supporta sia i tipi
int
chestring
nel campo della versione della firma vocale per la trascrizione conversazione.
Speech SDK 1.8.0: versione di novembre 2019
Nuove funzionalità
- Aggiunta di un'API
FromHost()
per semplificare l'uso con contenitori locali e cloud sovrani. - Aggiunta dell'identificazione della lingua di origine per il riconoscimento vocale (in Java e C++)
- Aggiunta dell'oggetto
SourceLanguageConfig
per il riconoscimento vocale, usato per specificare i linguaggi di origine previsti (in Java e C++) - Aggiunta del supporto
KeywordRecognizer
in Windows (piattaforma UWP), Android e iOS tramite i pacchetti NuGet e Unity - Aggiunta dell'API Java di conversazione remota per eseguire la trascrizione della conversazione in batch asincroni.
Modifiche di rilievo
- Funzionalità di trascrizione conversazione spostate nello spazio dei nomi
Microsoft.CognitiveServices.Speech.Transcription
. - Le parti dei metodi di trascrizione conversazione vengono spostate in una nuova classe
Conversation
. - Supporto eliminato per iOS a 32 bit (ARMv7 e x86)
Correzioni di bug
- Correzione dell'arresto anomalo del sistema se viene usato
KeywordRecognizer
in locale senza una chiave di sottoscrizione valida del servizio Voce
Esempi
- Esempio di Xamarin per
KeywordRecognizer
- Esempio di Unity per
KeywordRecognizer
- Esempi di C++ e Java per l'identificazione automatica della lingua di origine.
Speech SDK 1.7.0: versione di settembre 2019
Nuove funzionalità
- Aggiunta del supporto beta per Xamarin nella piattaforma UWP (Universal Windows Platform), Android e iOS
- Aggiunta del supporto iOS per Unity
- Aggiunta del supporto di input
Compressed
per ALaw, Mulaw, FLAC, in Android, iOS e Linux - Aggiunta di
SendMessageAsync
nella classeConnection
per l'invio di un messaggio al servizio - Aggiunta di
SetMessageProperty
nella classeConnection
per impostare la proprietà di un messaggio - TTS ha aggiunto associazioni per Java (JRE e Android), Python, Swift e Objective-C
- TTS ha aggiunto il supporto per la riproduzione per macOS, iOS e Android.
- Aggiunta di informazioni "confine di parola" per TTS.
Correzioni di bug
- Correzione del problema di compilazione IL2CPP in Unity 2019 per Android
- Correzione del problema relativo alle intestazioni in formato non valido nell'input del file wav elaborato in modo non corretto
- È stato risolto un problema con UUID non univoci in alcune proprietà di connessione
- Correzione di alcuni avvisi relativi agli identificatori di supporto dei valori Null nelle associazioni Swift (potrebbero richiedere piccole modifiche al codice)
- Correzione di un bug che causava la chiusura di connessioni websocket in modo anomalo nel carico di rete
- È stato risolto un problema in Android che a volte causava ID impression duplicati usati da
DialogServiceConnector
- Miglioramenti alla stabilità delle connessioni tra interazioni a più turni e segnalazione di errori (tramite eventi
Canceled
) quando si verificano conDialogServiceConnector
- L’avvio della sessione
DialogServiceConnector
ora fornirà correttamente gli eventi, tra cui nella chiamata diListenOnceAsync()
, durante una sessione attivaStartKeywordRecognitionAsync()
- È stato risolto un arresto anomalo del sistema associato alle attività
DialogServiceConnector
in ricezione
Esempi
- Avvio rapido per Xamarin
- Avvio rapido aggiornato per CPP con informazioni su Linux Arm64
- Avvio rapido di Unity aggiornata con informazioni su iOS
Speech SDK 1.6.0: versione di giugno 2019
Esempi
- Esempi di avvio rapido per sintesi vocale in piattaforma UWP e Unity
- Esempio di Avvio rapido per Swift in iOS
- Esempi di Unity per riconoscimento finalità e vocale, e traduzione
- Esempi di avvio rapido aggiornati per
DialogServiceConnector
Miglioramenti/modifiche
- Spazio dei nomi della finestra di dialogo:
SpeechBotConnector
è stata rinominataDialogServiceConnector
BotConfig
è stata rinominataDialogServiceConfig
- È stato eseguito un nuovo mapping di
BotConfig::FromChannelSecret()
perDialogServiceConfig::FromBotSecret()
- Tutti i client Direct Line Speech esistenti continuano a essere supportati dopo la ridenominazione
- Aggiornare l'adattatore REST TTS per supportare la connessione proxy, persistente
- Migliorare il messaggio di errore quando viene passata un'area non valida
- Swift/Objective-C:
- Miglioramento della segnalazione degli errori: i metodi che possono generare un errore sono ora presenti in due versioni: uno che espone un oggetto
NSError
per la gestione degli errori e uno che genera un'eccezione. I precedenti sono esposti a Swift. Questa modifica richiede adattamenti del codice Swift esistente. - Gestione degli eventi migliorata
- Miglioramento della segnalazione degli errori: i metodi che possono generare un errore sono ora presenti in due versioni: uno che espone un oggetto
Correzioni di bug
- Correzione per TTS: dove il futuro
SpeakTextAsync
è stato restituito senza attendere il completamento del rendering dell'audio - Correzione per eseguire il marshalling delle stringhe in C# per abilitare il supporto completo della lingua
- Correzione del problema dell'app .NET Core per caricare la libreria core con framework di destinazione net461 negli esempi
- Correzione di problemi occasionali per distribuire librerie native nella cartella di output negli esempi
- Correzione per la chiusura affidabile del websocket
- Correzione di un possibile arresto anomalo durante l'apertura di una connessione con carico elevato in Linux
- Correzione per i metadati mancanti nel pacchetto del framework per macOS
- Correzione dei problemi relativi a
pip install --user
in Windows
Speech SDK 1.5.1
Si tratta di una versione di correzione di bug che influisce solo su SDK nativo/gestito. Non influisce sulla versione JavaScript dell'SDK.
Correzioni di bug
- Correzione di FromSubscription quando usata con trascrizione conversazione.
- Correzione del bug nella ricerca di parole chiave per gli assistenti vocali.
Speech SDK 1.5.0: versione di maggio 2019
Nuove funzionalità
- L'individuazione delle parole chiave (KWS) è ora disponibile per Windows e Linux. La funzionalità KWS potrebbe funzionare con qualsiasi tipo di microfono. Il supporto ufficiale di KWS, tuttavia, è attualmente limitato alle matrici di microfoni disponibili nell'hardware di Azure Kinect DK o nei dispositivi Speech SDK.
- La funzionalità hint per frasi è disponibile tramite l'SDK. Per ulteriori informazioni, vedi qui.
- La funzionalità di trascrizione conversazione è disponibile tramite SDK.
- Aggiungere il supporto per gli assistenti vocali usando il canale Direct Line Speech.
Esempi
- Aggiunta di esempi per le nuove funzionalità o i nuovi servizi supportati dall'SDK.
Miglioramenti/modifiche
- Sono state aggiunte varie proprietà di riconoscimento per regolare il comportamento del servizio o i risultati del servizio (ad esempio mascherando contenuto volgare e altro).
- È ora possibile configurare il riconoscimento tramite le proprietà di configurazione standard, anche se è stato creato il sistema di riconoscimento
FromEndpoint
. - Objective-C: la proprietà
OutputFormat
è stata aggiunta aSPXSpeechConfiguration
. - SDK supporta ora Debian 9 come distribuzione Linux.
Correzioni di bug
- È stato risolto un problema per cui la risorsa dell’altoparlante veniva eliminata troppo presto in sintesi vocale.
Speech SDK 1.4.2
Si tratta di una versione di correzione di bug che influisce solo su SDK nativo/gestito. Non influisce sulla versione JavaScript dell'SDK.
Speech SDK 1.4.1
Questa è una versione solo per JavaScript. Non sono state aggiunte funzionalità. Sono state apportate le correzioni seguenti:
- Impedire al pacchetto Web di caricare https-proxy-agent.
Speech SDK 1.4.0: versione di aprile 2019
Nuove funzionalità
- L'SDK supporta ora il servizio Sintesi vocale in versione beta. È supportato in Windows e Linux Desktop da C++ e C#. Per altre informazioni, vedere panoramica di Sintesi vocale.
- SDK supporta ora file audio MP3 e Opus/OGG come file di input streaming. Questa funzionalità è disponibile solo in Linux da C++ e C# ed è attualmente in versione beta (altri dettagli qui).
- Speech SDK per Java, .NET Core, C++ e Objective-C hanno ottenuto il supporto macOS. Il supporto Objective-C per macOS è attualmente in versione beta.
- iOS: Speech SDK per iOS (Objective-C) è ora pubblicato anche come CocoaPod.
- JavaScript: supporto per il microfono non predefinito come dispositivo di input.
- JavaScript: supporto proxy per Node.js.
Esempi
- Sono stati aggiunti esempi per l'uso di Speech SDK con C++ e con Objective-C in macOS.
- Sono stati aggiunti esempi che illustrano l'utilizzo del servizio Sintesi vocale.
Miglioramenti/modifiche
- Python: le proprietà aggiuntive dei risultati del riconoscimento vengono ora esposte tramite la proprietà
properties
. - Per un supporto aggiuntivo per lo sviluppo e il debug, è possibile reindirizzare le informazioni di registrazione e diagnostica dell'SDK in un file di log (altri dettagli qui).
- JavaScript: migliorare le prestazioni di elaborazione audio.
Correzioni di bug
- Mac/iOS: è stato corretto un bug che causava un'attesa prolungata quando non si riusciva a stabilire una connessione al servizio Voce.
- Python: migliorare la gestione degli errori per gli argomenti nei callback di Python.
- JavaScript: correzione della segnalazione dello stato non corretta perché il riconoscimento vocale terminava a RequestSession.
Speech SDK 1.3.1: aggiornamento di febbraio 2019
Si tratta di una versione di correzione di bug che influisce solo su SDK nativo/gestito. Non influisce sulla versione JavaScript dell'SDK.
Correzione di bug
- Correzione di una perdita di memoria quando si usa l'input del microfono. L'input basato su streaming o file non è interessato.
Speech SDK 1.3.0: versione di febbraio 2019
Nuove funzionalità
- Speech SDK supporta la selezione del microfono per l'input attraverso la classe
AudioConfig
. In questo modo è possibile trasmettere dati audio al servizio Voce da un microfono non predefinito. Per altre informazioni, vedere la documentazione relativa alla selezione del dispositivo di input audio. Questa funzionalità non è ancora disponibile in JavaScript. - Speech SDK supporta ora Unity in versione beta. Inviare commenti e suggerimenti tramite la sezione relativa ai problemi nel repository GitHub di esempio. Questa versione supporta Unity in Windows x86 e x64 (applicazioni desktop o per la piattaforma UWP) e Android (ARM32/64, x86). Altre informazioni sono disponibili nell'Avvio rapido di Unity.
- Il file
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
(fornito nelle versioni precedenti) non è più necessario. La funzionalità è ora integrata nell'SDK core.
Esempi
I nuovi contenuti seguenti sono disponibili nel repository di esempio:
- Altri esempi per
AudioConfig.FromMicrophoneInput
. - Altri esempi di Python per il riconoscimento finalità e la traduzione.
- Esempi aggiuntivi per l'uso dell'oggetto
Connection
in iOS. - Esempi aggiuntivi per Java per la traduzione con output audio.
- Nuovo esempio per l'uso dell'API REST di trascrizione batch.
Miglioramenti/modifiche
- Python
- Messaggi di errore e verifica dei parametri migliorati in
SpeechConfig
. - Aggiungere il supporto per l'oggetto
Connection
. - Supporto per Python a 32 bit (x86) in Windows.
- Speech SDK per Python non è incluso nella beta.
- Messaggi di errore e verifica dei parametri migliorati in
- iOS
- L'SDK è ora basato sull'SDK per iOS versione 12.1.
- L'SDK supporta ora iOS 9.2 e versioni successive.
- Miglioramento della documentazione di riferimento e correzione di diversi nomi di proprietà.
- JavaScript
- Aggiungere il supporto per l'oggetto
Connection
. - Aggiunta di file di definizione del tipo per JavaScript in bundle.
- Supporto iniziale e implementazione per gli hint della frase.
- Restituzione della raccolta di proprietà con il file JSON del servizio per il riconoscimento.
- Aggiungere il supporto per l'oggetto
- Le DLL di Windows contengono ora una risorsa di versione.
- Se si crea un sistema di riconoscimento
FromEndpoint
, è possibile aggiungere parametri direttamente all'URL dell'endpoint. L'uso diFromEndpoint
non consente di configurare il sistema di riconoscimento tramite le proprietà di configurazione standard.
Correzioni di bug
- Il nome utente proxy e la password proxy vuoti non sono stati gestiti correttamente. Con questa versione, se si imposta il nome utente proxy e la password proxy su una stringa vuota, non verranno inviati quando ci si connette al proxy.
- Gli ID sessione creati dall'SDK non erano sempre realmente casuali per alcune lingue/ambienti. È stata aggiunta l'inizializzazione del generatore casuale per risolvere questo problema.
- Gestione migliorata del token di autorizzazione. Se si vuole usare un token di autorizzazione, specificarlo in
SpeechConfig
e lasciare vuota la chiave di sottoscrizione. Creare quindi il sistema di riconoscimento come di consueto. - In alcuni casi l'oggetto
Connection
non veniva rilasciato correttamente. Il problema è stato risolto. - L'esempio di JavaScript è stato corretto per supportare l'output audio per la sintesi della traduzione anche in Safari.
Speech SDK 1.2.1
Questa è una versione solo per JavaScript. Non sono state aggiunte funzionalità. Sono state apportate le correzioni seguenti:
- Attivazione della fine del flusso in corrispondenza di turn.end e non di speech.end.
- Correzione di un bug nel data pump audio che non pianificava l'invio successivo in caso di errore dell'invio corrente.
- Correzione del riconoscimento continuo con il token di autenticazione.
- Correzione di bug per sistemi di riconoscimento/endpoint diversi.
- Miglioramenti alla documentazione.
Speech SDK 1.2.0: versione di dicembre 2018
Nuove funzionalità
- Python
- La versione beta del supporto di Python (versione 3.5 e successive) è disponibile con questa versione. Per altre informazioni, vedere qui](.. /.. /quickstart-python.md).
- JavaScript
- Oggetto
Connection
- Da
Recognizer
è possibile accedere a un oggettoConnection
. Questo oggetto consente di avviare in modo esplicito la connessione al servizio e di aggiungere una sottoscrizione per connettere e disconnettere gli eventi. (Questa funzionalità non è ancora disponibile in JavaScript e Python).
- Da
- Supporto per Ubuntu 18.04.
- Android
- Supporto di ProGuard abilitato durante la generazione di APK.
Miglioramenti
- Miglioramenti nell'uso dei thread interni, con riduzione del numero di thread, blocchi e mutex.
- Miglioramento della segnalazione errori e delle informazioni sugli errori. In molti casi i messaggi di errore non sono stati propagati completamente.
- Aggiornamento delle dipendenze di sviluppo in JavaScript per usare i moduli aggiornati.
Correzioni di bug
- Correzione delle perdite di memoria a causa di una mancata corrispondenza del tipo in
RecognizeAsync
. - In alcuni casi perdita delle eccezioni.
- Correzione della perdita di memoria negli argomenti degli eventi di conversione.
- Correzione di un problema di blocco per la riconnessione in sessioni a esecuzione prolungata.
- Risoluzione di un problema che può causare la mancanza di risultati finali per le traduzioni non riuscite.
- C#: se un'operazione di
async
non è stata attesa nel thread principale, è possibile che lo strumento di riconoscimento possa essere eliminato prima del completamento dell'attività asincrona. - Java: è stato risolto un problema che causava un arresto anomalo della macchina virtuale Java.
- Objective-C: correzione del mapping delle enumerazioni; è stato restituito RecognizedIntent anziché
RecognizingIntent
. - JavaScript: impostazione del formato di output predefinito su 'simple' in
SpeechConfig
. - JavaScript: rimozione dell'incoerenza tra le proprietà nell'oggetto config in JavaScript e in altri linguaggi.
Esempi
- Aggiornamento e correzione di vari esempi (ad esempio voci di output per la traduzione e così via).
- Aggiunta di esempi di Node.js nel repository degli esempi.
Speech SDK 1.1.0
Nuove funzionalità
- Supporto per Android x86/x64.
- Supporto del proxy: nell'oggetto
SpeechConfig
, è ora possibile chiamare una funzione che consente di impostare le informazioni sul proxy (nome host, porta, nome utente e password). Questa funzionalità non è ancora disponibile in iOS. - Messaggi e codice di errore migliorati. Se un riconoscimento ha restituito un errore, l'elemento
Reason
(nell'evento annullato) oCancellationDetails
(nel risultato del riconoscimento) è già stato impostato suError
. L'evento annullato contiene ora due membri aggiuntivi:ErrorCode
eErrorDetails
. Se il server ha restituito l'errore corredato da informazioni aggiuntive, le informazioni saranno ora disponibili nei nuovi membri.
Miglioramenti
- È stata aggiunta una verifica supplementare nella configurazione del sistema di riconoscimento ed è stato aggiunto un nuovo messaggio di errore.
- È stata migliorata la gestione di un silenzio prolungato nel mezzo di un file audio.
- Pacchetto NuGet: per i progetti .NET Framework, impedisce la compilazione con una configurazione AnyCPU.
Correzioni di bug
- Sono state corrette varie eccezioni rilevate nei sistemi di riconoscimento. Inoltre, le eccezioni vengono rilevate e convertite nell’evento
Canceled
. - È stata corretta una perdita di memoria nella gestione delle proprietà.
- È stato corretto un bug per il quale un file di input audio può determinare l'arresto anomalo del sistema di riconoscimento.
- È stato risolto un bug per il quale si continuano a ricevere eventi anche dopo un evento di arresto della sessione.
- Sono state corrette alcune race condition nel threading.
- È stato corretto un problema di compatibilità iOS che può determinare un arresto anomalo.
- Sono stati apportati miglioramenti di stabilità per il supporto di microfoni Android.
- È stato risolto un bug per il quale un sistema di riconoscimento in JavaScript ignorava la lingua di riconoscimento.
- Correzione di un bug che impedisce l'impostazione di
EndpointId
(in alcuni casi) in JavaScript. - Modificato l'ordine dei parametri in AddIntent in JavaScript e aggiunta firma
AddIntent
JavaScript mancante.
Esempi
- Sono stati aggiunti esempi C++ e C# per l'utilizzo del flusso pull e push nel repository degli esempi.
Speech SDK 1.0.1
Miglioramenti apportati alla stabilità e correzioni di bug:
- Risoluzione di un potenziale errore irreversibile dovuto a una race condition nell'eliminazione dello strumento di riconoscimento.
- Correzione di un potenziale errore irreversibile al verificarsi di proprietà nonset.
- Aggiunta di un ulteriore controllo di errori e parametri.
- Objective-C: risoluzione di un potenziale errore irreversibile causato dall'override del nome in NSString.
- Objective-C: modifica della visibilità dell'API
- JavaScript: correzioni relative a eventi e payload correlati.
- Miglioramenti alla documentazione.
Al repository di esempi è stato aggiunto un nuovo esempio per JavaScript.
Voce di Azure AI SDK 1.0.0: versione di settembre 2018
Nuove funzionalità
- Supporto per Objective-C in iOS. Vedere la Guida introduttiva su Objective-C per iOS.
- Supporto per JavaScript nel browser. Vedere la Guida introduttiva su JavaScript.
Modifiche di rilievo
- Questa versione introduce numerose modifiche di rilievo. Per informazioni dettagliate, vedere questa pagina.
Voce di Azure AI SDK 0.6.0: versione di agosto 2018
Nuove funzionalità
- Le app UWP compilate con Speech SDK ora possono superare il Kit di certificazione app Windows (WACK). Consultare la Guida introduttiva della piattaforma UWP.
- Supporto per .NET Standard 2.0 in Linux (Ubuntu 16.04 x64).
- Sperimentale: supporto di Java 8 in Windows (64 bit) e Linux (Ubuntu 16.04 x64). Consultare la Guida introduttiva di Java Runtime Environment.
Modifica funzionale
- Informazioni aggiuntive dettagliate sull'errore in caso di errori di connessione.
Modifiche di rilievo
- In Java (Android), la funzione
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
non richiede più un parametro di percorso. Il percorso viene ora rilevato automaticamente in tutte le piattaforme supportate. - La funzione di accesso get della proprietà
EndpointUrl
in Java e C# è stata rimossa.
Correzioni di bug
- In Java, il risultato di sintesi audio sul sistema di riconoscimento di traduzione è ora implementato.
- È stato risolto un bug che potrebbe causare un maggior numero di socket aperti e inutilizzati e thread inattivi.
- È stato risolto un problema in cui un riconoscimento con esecuzione prolungata terminava la trasmissione a metà.
- Correzione di una race condition nel sistema di riconoscimento di arresto.
Voce di Azure AI SDK 0.5.0: versione di luglio 2018
Nuove funzionalità
- Supporto della piattaforma Android (API 23: Android Marshmallow 6.0 o versione successiva). Consultare la Guida introduttiva di Android.
- Supporto di .NET Standard 2.0 in Windows. Consultare la Guida introduttiva di .NET Core.
- Sperimentale: supporto di UWP in Windows (versione 1709 o successiva).
- Consultare la Guida introduttiva della piattaforma UWP.
- Notare che le app della piattaforma UWP compilate con Speech SDK non superano ancora il Kit di certificazione app Windows (WACK).
- Supporto del riconoscimento a esecuzione prolungata con riconnessione automatica.
Modifiche funzionali
StartContinuousRecognitionAsync()
supporta il riconoscimento a esecuzione prolungata.- Il risultato del riconoscimento contiene più campi. Scostamento da inizio audio e durata (entrambi in tick) del testo riconosciuto, valori aggiuntivi che rappresentano lo stato di riconoscimento, ad esempio
InitialSilenceTimeout
eInitialBabbleTimeout
. - Supporto del token di autorizzazione per la creazione di istanze di factory.
Modifiche di rilievo
- Eventi di riconoscimento: il tipo di evento
NoMatch
è stato unito all'eventoError
. - SpeechOutputFormat in C# è stato rinominato in
OutputFormat
per coerenza con C++. - Il tipo restituito di alcuni metodi dell'interfaccia
AudioInputStream
è stato leggermente modificato:- In Java, il metodo
read
restituisce oralong
invece diint
. - In C#, il metodo
Read
restituisce orauint
invece diint
. - In C++, i metodi
Read
eGetFormat
restituiscono orasize_t
invece diint
.
- In Java, il metodo
- C++: le istanze di flussi di input audio possono ora essere passate solo come
shared_ptr
.
Correzioni di bug
- Sono stati corretti i valori restituiti errati nel risultato alla scadenza di
RecognizeAsync()
. - È stata rimossa la dipendenza dalle librerie di Media Foundation in Windows. L'SDK usa ora le API Audio Core.
- Correzione della documentazione: è stata aggiunta una pagina relativa alle aree per descrivere le aree supportate.
Problema noto
- Speech SDK per Android non segnala i risultati della sintesi vocale per la traduzione. Questo problema verrà risolto nella prossima versione.
Voce di Azure AI SDK 0.4.0: versione di giugno 2018
Modifiche funzionali
AudioInputStream
Uno strumento di riconoscimento può ora usare un flusso come origine audio. Per informazioni dettagliate, vedere la guida pratica.
Formato dettagliato dell'output
Durante la creazione di uno
SpeechRecognizer
, è possibile richiedere un formato di outputDetailed
oSimple
. IlDetailedSpeechRecognitionResult
contiene punteggio di attendibilità, testo riconosciuto, forma lessicale non elaborata, forma normalizzata e forma normalizzata con messaggi dal contenuto volgare mascherati.
Modifica
- Modifica da
SpeechRecognitionResult.RecognizedText
aSpeechRecognitionResult.Text
in linguaggio C#.
Correzioni di bug
- È stato corretto un possibile problema di callback nel livello USP durante l'arresto.
- Se un riconoscimento usa un file di input audio, significa che esso contiene l'handle del file più a lungo rispetto al necessario.
- Sono stati rimossi diversi deadlock tra message pump e strumento di riconoscimento.
- Attiva un risultato
NoMatch
quando la risposta dal servizio è scaduta. - Le librerie di Media Foundation in Windows sono a caricamento ritardato. Questa libreria è richiesta solo per l'input del microfono.
- La velocità di caricamento dei dati audio è limitata a circa due volte la velocità dell'audio originale.
- In Windows, gli assembly C# .NET hanno ora un nome sicuro.
- Correzione della documentazione:
Region
è un'informazione obbligatoria per la creazione di un riconoscimento.
Sono stati aggiunti altri esempi che sono costantemente in corso l'aggiornamento. Per il set di esempi più recente, vedere il repository GitHub degli esempi di Speech SDK.
Voce di Azure AI SDK 0.2.12733: versione di maggio 2018
Questa versione è la prima versione di anteprima pubblica di Voce di Azure AI SDK.