Vad är Speech Studio?

Speech Studio är en uppsättning gränssnittsbaserade verktyg för att skapa och integrera funktioner från Azure AI Speech-tjänsten i dina program. Du skapar projekt i Speech Studio med hjälp av en metod utan kod och refererar sedan till dessa tillgångar i dina program med hjälp av Speech SDK, Speech CLI eller REST-API:erna.

Dricks

Du kan också prova tal till text och text till tal i AI Studio utan att registrera dig eller skriva någon kod.

Speech Studio-scenarier

Utforska, prova och visa exempelkod för några vanliga användningsfall.

  • Bildtext: Välj ett exempelvideoklipp för att se bearbetade textningsresultat i realtid eller offline. Lär dig hur du synkroniserar bildtexter med ditt indataljud, tillämpar svordomsfilter, får partiella resultat, tillämpar anpassningar och identifierar talade språk för flerspråkiga scenarier. Mer information finns i snabbstarten för beskrivning.

  • Call Center: Visa en demonstration om hur du använder språk- och taltjänsterna för att analysera samtalscentrets konversationer. Transkribera anrop i realtid eller bearbeta en batch med anrop, redigera personligt identifierande information och extrahera insikter som sentiment för att hjälpa till med ditt användningsfall för kundtjänst. Mer information finns i snabbstarten för callcenter.

En demonstration av dessa scenarier i Speech Studio finns i den här introduktionsvideon.

Speech Studio-funktioner

I Speech Studio är följande Speech-tjänstfunktioner tillgängliga som projekttyper:

  • Tal till text i realtid: Testa snabbt tal till text genom att dra ljudfiler här utan att behöva använda någon kod. Speech Studio har ett demoverktyg för att se hur tal till text fungerar på dina ljudexempel. Information om hur du utforskar alla funktioner finns i Vad är tal till text.

  • Batchtal till text: Testa snabbt batchavskriftsfunktioner för att transkribera en stor mängd ljud i lagringen och ta emot resultat asynkront. Mer information om Batch Speech-to-text finns i Översikt över Batch-tal till text.

  • Anpassat tal: Skapa taligenkänningsmodeller som är skräddarsydda för specifika ordförrådsuppsättningar och talstilar. Till skillnad från den grundläggande taligenkänningsmodellen blir anpassade talmodeller en del av din unika konkurrensfördel eftersom de inte är offentligt tillgängliga. Information om hur du kommer igång med att ladda upp exempelljud för att skapa en anpassad talmodell finns i Ladda upp tränings- och testdatauppsättningar.

  • Uttalsbedömning: Utvärdera tal uttal och ge talare feedback om noggrannhet och flyt i talat ljud. Speech Studio tillhandahåller en sandbox-miljö för att testa den här funktionen snabbt, utan kod. Information om hur du använder funktionen med Speech SDK i dina program finns i artikeln Utvärdering av uttal .

  • Talöversättning: Testa och översätta tal snabbt till andra språk som du väljer med låg svarstid. Mer information om de fullständiga funktionerna finns i Vad är talöversättning.

  • Röstgalleri: Skapa appar och tjänster som talar naturligt. Välj mellan en bred portfölj med språk, röster och varianter. Ge liv åt dina scenarier med mycket uttrycksfulla och människoliknande neurala röster.

  • Anpassad röst: Skapa anpassade, enstaka röster för text till tal. Du anger ljudfiler och skapar matchande transkriptioner i Speech Studio och använder sedan anpassade röster i dina program. Information om hur du skapar och använder anpassade röster via slutpunkter finns i Skapa och använda din röstmodell.

  • Skapande av ljudinnehåll: En metod utan kod för text till tal-syntes. Du kan använda utdataljudet som det är eller som utgångspunkt för ytterligare anpassning. Du kan skapa mycket naturligt ljudinnehåll för olika scenarier, till exempel ljudböcker, nyhetssändningar, videouppläsningar och chattrobotar. Mer information finns i dokumentationen för att skapa ljudinnehåll.

  • Anpassat nyckelord: Ett anpassat nyckelord är ett ord eller en kort fras som du kan använda för att röstaktivering av en produkt. Du skapar ett anpassat nyckelord i Speech Studio och genererar sedan en binär fil som ska användas med Speech SDK i dina program.

Nästa steg