Översikt över ljudströmning – ljudprenumeration
Viktigt!
Funktioner som beskrivs i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.
Azure Communication Services ger utvecklare funktioner för ljuduppspelning för att få realtidsåtkomst till ljudströmmar för att samla in, analysera och bearbeta ljudinnehåll under aktiva samtal. I dagens världsförbrukning av liveljud och video är vanligt förekommande, kan detta innehåll vara i form av onlinemöten, onlinekonferenser, kundsupport osv. Med åtkomst till ljudströmning kan utvecklare nu skapa serverprogram för att samla in och analysera ljudströmmar för var och en av deltagarna i samtalet i realtid. Utvecklare kan också kombinera ljuduppspelning med andra åtgärder för samtalsautomatisering eller använda sina egna AI-modeller för att analysera ljudströmmar. Användningsfall inkluderar NLP för konversationsanalys eller tillhandahålla insikter och förslag i realtid till agenter när de är i en aktiv interaktion med slutanvändare.
Den här offentliga förhandsversionen stöder möjligheten för utvecklare att få åtkomst till realtidsljudströmmar via en WebSocket för att analysera samtalets ljud i blandade och omixade format.
Vanliga användningsfall
Ljudströmmar kan användas på många sätt. Några exempel på hur utvecklare kanske vill använda ljudströmmarna i sina program är:
Samtalshjälp i realtid
Förbättrade AI-drivna förslag – Använd realtidsljudströmmar med aktiva interaktioner mellan agenter och kunder för att mäta syftet med samtalet och hur dina agenter kan ge kunden en bättre upplevelse genom aktiva förslag med hjälp av din egen AI-modell för att analysera samtalet.
Autentisering
Biometrisk autentisering – Använd ljudströmmarna för att utföra röstautentisering genom att köra ljudet från samtalet via din röstigenkänning/matchande motor/verktyg.
Exempelarkitektur för att prenumerera på ljudströmmar från ett pågående samtal – liveagentscenario
Format som stöds
Blandat format
Innehåller blandat ljud för alla deltagare i samtalet. Allt ljud plattas ut till en ström.
Raffinera
Innehåller ljud per deltagare per kanal, med stöd för upp till fyra kanaler för de fyra mest dominerande talarna när som helst i ett samtal. Du får också ett deltagar-ID som du kan använda för att fastställa talaren.
Ytterligare information
Tabellen nedan beskriver information som hjälper utvecklare att konvertera ljudpaketen till hörbart innehåll som kan användas av deras program.
- Framerate: 50 bildrutor per sekund
- Paketströmhastighet: 20 ms-hastighet
- Datapaket: 64 Kbyte
- Ljudmått: 16-bitars PCM mono vid 16000 hz
- Offentliga strängdata är en base64-sträng som ska konverteras till en bytematris för att skapa en rå PCM-fil.
Nästa steg
Läs snabbstarten för ljuduppspelning om du vill veta mer.