クイックスタート: サーバー側音声ストリーミング

[アーティクル]
08/12/2024

重要

この記事で説明されている機能は、現在パブリックプレビュー段階にあります。このプレビューバージョンはサービスレベルアグリーメントなしで提供されており、運用環境のワークロードに使用することは推奨されません。特定の機能はサポート対象ではなく、機能が制限されることがあります。詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

Azure Communication Services Media Streaming API を使用して音声ストリームの使用を開始します。このクイックスタートでは、自動呼び出しルーティングソリューションを構築するための Call Automation API について既に理解していることを前提としています。

このクイックスタートで説明されている機能は、現在、パブリックプレビュー段階にあります。

前提条件

アクティブなサブスクリプションを持つ Azure アカウント。詳細については、「アカウントの無料作成」を参照してください。
Azure Communication Services リソース。 Azure Communication Services リソースの作成に関する記事を参照してください。
Call Automation SDK を使用して作成した新しい Web サービスアプリケーション。
お使いのオペレーティングシステムに対応した最新の .NET ライブラリ。
メディアストリームを受信できる Websocket サーバー。

Websocket サーバーを設定する

Azure Communication Services では、リアルタイムでオーディオをストリーミングする WebSocket サーバーをサーバーアプリケーションで設定する必要があります。 WebSocket は、単一の TCP 接続で全二重通信チャネルを提供する標準化されたプロトコルです。必要に応じて、Websocket 接続経由でオーディオストリームを受信するアプリケーションを作成できる Azure サービス Azure WebApps を使用できます。このクイックスタートに従ってください。

通話を確立する

通話を確立し、ストリーミングの詳細を指定する

MediaStreamingOptions mediaStreamingOptions = new MediaStreamingOptions( 
    new Uri("<WEBSOCKET URL>"), 
    MediaStreamingContent.Audio, 
    MediaStreamingAudioChannel.Mixed, 
    MediaStreamingTransport.Websocket, 
    false); 

 var createCallOptions = new CreateCallOptions(callInvite, callbackUri) 
 { 
     CallIntelligenceOptions = new CallIntelligenceOptions() { CognitiveServicesEndpoint = new Uri(cognitiveServiceEndpoint) }, 
     MediaStreamingOptions = mediaStreamingOptions, 
 }; 

 CreateCallResult createCallResult = await callAutomationClient.CreateCallAsync(createCallOptions);

音声ストリーミングを開始する

音声ストリーミングを開始する方法は次のとおりです。

StartMediaStreamingOptions options = new StartMediaStreamingOptions() 
    { 
        OperationCallbackUri = new Uri(callbackUriHost), 
        OperationContext = "startMediaStreamingContext" 
    };
    await callMedia.StartMediaStreamingAsync(options);

Azure Communication Services が WebSocket サーバーの URL を受信すると、そのサーバーへの接続が作成されます。 Azure Communication Services が WebSocket サーバーに正常に接続されストリーミングが開始されると、受信メディアパケットに関するメタデータを含む最初のデータパケットが送信されます。

メタデータパケットは次のようになります。

{ 
    "kind": <string> // What kind of data this is, e.g. AudioMetadata, AudioData. 
    "audioMetadata": { 
        "subscriptionId": <string>, // unique identifier for a subscription request 
        "encoding":<string>, // PCM only supported 
        "sampleRate": <int>, // 16000 default 
        "channels": <int>, // 1 default 
        "length": <int> // 640 default 
    } 
}

オーディオストリーミングを停止する

音声ストリーミングを停止する方法

StopMediaStreamingOptions stopOptions = new StopMediaStreamingOptions() 
    { 
        OperationCallbackUri = new Uri(callbackUriHost) 
    }; 
    await callMedia.StopMediaStreamingAsync(stopOptions);

Websocket サーバーでの音声ストリームの処理

次のサンプルは、Websocket サーバーを使用して音声ストリームをリッスンする方法を示しています。

HttpListener httpListener = new HttpListener(); 
httpListener.Prefixes.Add("http://localhost:80/"); 
httpListener.Start(); 

while (true) 
{ 
    HttpListenerContext httpListenerContext = await httpListener.GetContextAsync(); 
    if (httpListenerContext.Request.IsWebSocketRequest) 
    { 
        WebSocketContext websocketContext; 
        try 
        { 
            websocketContext = await httpListenerContext.AcceptWebSocketAsync(subProtocol: null); 
        } 
        catch (Exception ex) 
        { 
            return; 
        } 
        WebSocket webSocket = websocketContext.WebSocket; 
        try 
        { 
            while (webSocket.State == WebSocketState.Open || webSocket.State == WebSocketState.CloseSent) 
            { 
                byte[] receiveBuffer = new byte[2048]; 
                var cancellationToken = new CancellationTokenSource(TimeSpan.FromSeconds(60)).Token; 
                WebSocketReceiveResult receiveResult = await webSocket.ReceiveAsync(new ArraySegment<byte>(receiveBuffer), cancellationToken); 
                if (receiveResult.MessageType != WebSocketMessageType.Close) 
                { 
                    var data = Encoding.UTF8.GetString(receiveBuffer).TrimEnd('\0'); 
                    try 
                    { 
                        var eventData = JsonConvert.DeserializeObject<AudioBaseClass>(data); 
                        if (eventData != null) 
                        { 
                            if(eventData.kind == "AudioMetadata") 
                            { 
                                //Process audio metadata 
                            } 
                            else if(eventData.kind == "AudioData")  
                            { 
                                //Process audio data 
                                var byteArray = eventData.audioData.data; 
                               //use audio byteArray as you want 
                            } 
                        } 
                    } 
                    catch { } 
                } 
            } 
        } 
        catch (Exception ex) { } 
    } 
}

前提条件

アクティブなサブスクリプションを持つ Azure アカウント。詳細については、アカウントの無料作成に関するページを参照してください。
Azure Communication Services リソース。 Azure Communication Services リソースの作成に関する記事を参照してください。
Call Automation SDK を使用して作成した新しい Web サービスアプリケーション。
Java Development Kit バージョン 8 以降。
Apache Maven。

Websocket サーバーを設定する

通話を確立する

通話を確立し、ストリーミングの詳細を指定する

CallInvite callInvite = new CallInvite(target, caller);  
              
            CallIntelligenceOptions callIntelligenceOptions = new CallIntelligenceOptions().setCognitiveServicesEndpoint(appConfig.getCognitiveServiceEndpoint());  
            MediaStreamingOptions mediaStreamingOptions = new MediaStreamingOptions(appConfig.getWebSocketUrl(), MediaStreamingTransport.WEBSOCKET, MediaStreamingContentType.AUDIO, MediaStreamingAudioChannel.UNMIXED);  
            mediaStreamingOptions.setStartMediaStreaming(false);  
          
            CreateCallOptions createCallOptions = new CreateCallOptions(callInvite, appConfig.getCallBackUri());  
            createCallOptions.setCallIntelligenceOptions(callIntelligenceOptions);  
            createCallOptions.setMediaStreamingOptions(mediaStreamingOptions);  
  
            Response<CreateCallResult> result = client.createCallWithResponse(createCallOptions, Context.NONE);  
            return result.getValue().getCallConnectionProperties().getCallConnectionId();

音声ストリーミングを開始する

音声ストリーミングを開始する方法は次のとおりです。

StartMediaStreamingOptions startOptions = new StartMediaStreamingOptions()  
                                                        .setOperationContext("startMediaStreamingContext")  
                                                        .setOperationCallbackUrl(appConfig.getBasecallbackuri());  
         client.getCallConnection(callConnectionId)  
                     .getCallMedia()  
                     .startMediaStreamingWithResponse(startOptions, Context.NONE);

メタデータパケットは次のようになります。

{ 
    "kind": <string> // What kind of data this is, e.g. AudioMetadata, AudioData. 
    "audioMetadata": { 
        "subscriptionId": <string>, // unique identifier for a subscription request 
        "encoding":<string>, // PCM only supported 
        "sampleRate": <int>, // 16000 default 
        "channels": <int>, // 1 default 
        "length": <int> // 640 default 
    } 
}

オーディオストリーミングを停止する

音声ストリーミングを停止する方法

StopMediaStreamingOptions stopOptions = new StopMediaStreamingOptions()  
                                                        .setOperationCallbackUrl(appConfig.getBasecallbackuri());  
         client.getCallConnection(callConnectionId)  
                     .getCallMedia()  
                     .stopMediaStreamingWithResponse(stopOptions, Context.NONE);

Websocket サーバーでのメディアストリームの処理

次のサンプルは、Websocket サーバーを使用してメディアストリームをリッスンする方法を示しています App.javaとWebSocketServer.javaの 2 つのファイルを実行する必要があります

package com.example;

import org.glassfish.tyrus.server.Server;

import java.io.BufferedReader;
import java.io.InputStreamReader;

public class App {
    public static void main(String[] args) {

        Server server = new Server("localhost", 8081, "/ws", null, WebSocketServer.class);

        try {
            server.start();
            System.out.println("Web socket running on port 8081...");
            System.out.println("wss://localhost:8081/ws/server");
            BufferedReader reader = new BufferedReader(new InputStreamReader(System.in));
            reader.readLine();
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            server.stop();
        }
    }
}

package com.example;

import javax.websocket.OnMessage;
import javax.websocket.Session;
import javax.websocket.server.ServerEndpoint;

import com.azure.communication.callautomation.models.streaming.StreamingData;
import com.azure.communication.callautomation.models.streaming.StreamingDataParser;
import com.azure.communication.callautomation.models.streaming.media.AudioData;
import com.azure.communication.callautomation.models.streaming.media.AudioMetadata;

@ServerEndpoint("/server")
public class WebSocketServer {
    @OnMessage
    public void onMessage(String message, Session session) {

        // System.out.println("Received message: " + message);

        StreamingData data = StreamingDataParser.parse(message);

        if (data instanceof AudioMetadata) {
            AudioMetadata audioMetaData = (AudioMetadata) data;
            System.out.println("----------------------------------------------------------------");
            System.out.println("SUBSCRIPTION ID:-->" + audioMetaData.getMediaSubscriptionId());
            System.out.println("ENCODING:-->" + audioMetaData.getEncoding());
            System.out.println("SAMPLE RATE:-->" + audioMetaData.getSampleRate());
            System.out.println("CHANNELS:-->" + audioMetaData.getChannels());
            System.out.println("LENGTH:-->" + audioMetaData.getLength());
            System.out.println("----------------------------------------------------------------");
        }
        if (data instanceof AudioData) {
            System.out.println("----------------------------------------------------------------");
            AudioData audioData = (AudioData) data;
            System.out.println("DATA:-->" + audioData.getData());
            System.out.println("TIMESTAMP:-->" + audioData.getTimestamp());
            // System.out.println("PARTICIPANT:-->" + audioData.getParticipant().getRawId()
            // != null
            // ? audioData.getParticipant().getRawId()
            // : "");
            System.out.println("IS SILENT:-->" + audioData.isSilent());
            System.out.println("----------------------------------------------------------------");
        }
    }
}

前提条件

アクティブなサブスクリプションを持つ Azure アカウント。詳細については、アカウントの無料作成に関するページを参照してください。
Azure Communication Services リソース。 Azure Communication Services リソースの作成に関する記事を参照してください。
Call Automation SDK を使用して作成した新しい Web サービスアプリケーション。
Node.js LTS のインストール
メディアストリームを受信できる Websocket サーバー。

Websocket サーバーを設定する

通話を確立する

通話を確立し、ストリーミングの詳細を指定する

const mediaStreamingOptions: MediaStreamingOptions = { 
          transportUrl: "<WEBSOCKET URL>", 
          transportType: "websocket", 
          contentType: "audio", 
          audioChannelType: "unmixed", 
          startMediaStreaming: false 
} 
const options: CreateCallOptions = { 
          callIntelligenceOptions: { cognitiveServicesEndpoint: process.env.COGNITIVE_SERVICES_ENDPOINT }, 
          mediaStreamingOptions: mediaStreamingOptions 
};

音声ストリーミングを開始する

音声ストリーミングを開始する方法は次のとおりです。

const streamingOptions: StartMediaStreamingOptions = { 
        operationContext: "startMediaStreamingContext", 
        operationCallbackUrl: process.env.CALLBACK_URI + "/api/callbacks" 
    } 
await callMedia.startMediaStreaming(streamingOptions);

メタデータパケットは次のようになります。

{ 
    "kind": <string> // What kind of data this is, e.g. AudioMetadata, AudioData. 
    "audioMetadata": { 
        "subscriptionId": <string>, // unique identifier for a subscription request 
        "encoding":<string>, // PCM only supported 
        "sampleRate": <int>, // 16000 default 
        "channels": <int>, // 1 default 
        "length": <int> // 640 default 
    } 
}

オーディオストリーミングを停止する

音声ストリーミングを停止する方法

const stopMediaStreamingOptions: StopMediaStreamingOptions = { 
        operationCallbackUrl: process.env.CALLBACK_URI + "/api/callbacks" 
        } 
await callMedia.stopMediaStreaming(stopMediaStreamingOptions);

Websocket サーバーでの音声ストリームの処理

次のサンプルは、Websocket サーバーを使用して音声ストリームをリッスンする方法を示しています。

import WebSocket from 'ws'; 
import { streamingData } from '@azure/communication-call-automation/src/utli/streamingDataParser' 
const wss = new WebSocket.Server({ port: 8081 }); 

wss.on('connection', (ws: WebSocket) => { 
    console.log('Client connected'); 
    ws.on('message', (packetData: ArrayBuffer) => { 
        const decoder = new TextDecoder(); 
        const stringJson = decoder.decode(packetData); 
        console.log("STRING JSON=>--" + stringJson) 

        //var response = streamingData(stringJson); 

        var response = streamingData(packetData); 
        if ('locale' in response) { 
            console.log("Transcription Metadata") 
            console.log(response.callConnectionId); 
            console.log(response.correlationId); 
            console.log(response.locale); 
            console.log(response.subscriptionId); 
        } 
        if ('text' in response) { 
            console.log("Transcription Data") 
            console.log(response.text); 
            console.log(response.format); 
            console.log(response.confidence); 
            console.log(response.offset); 
            console.log(response.duration); 
            console.log(response.resultStatus); 
            if ('phoneNumber' in response.participant) { 
                console.log(response.participant.phoneNumber); 
            } 
            response.words.forEach(element => { 
                console.log(element.text) 
                console.log(element.duration) 
                console.log(element.offset) 
            }); 
        } 
    }); 

    ws.on('close', () => { 
        console.log('Client disconnected'); 
    }); 
}); 

// function processData(data: ArrayBuffer) { 
//  const byteArray = new Uint8Array(data); 
// } 

console.log('WebSocket server running on port 8081');

前提条件

アクティブなサブスクリプションを持つ Azure アカウント。詳細については、アカウントの無料作成に関するページを参照してください。
Azure Communication Services リソース。 Azure Communication Services リソースの作成に関する記事を参照してください。
Call Automation SDK を使用して作成した新しい Web サービスアプリケーション。
Python 3.7 以降。
メディアストリームを受信できる Websocket サーバー。

Websocket サーバーを設定する

通話を確立する

通話を確立し、ストリーミングの詳細を指定する

media_streaming_options = MediaStreamingOptions( 
         transport_url="wss://e063-2409-40c2-4004-eced-9487-4dfb-b0e4-10fb.ngrok-free.app", 
         transport_type=MediaStreamingTransportType.WEBSOCKET, 
         content_type=MediaStreamingContentType.AUDIO, 
         audio_channel_type=MediaStreamingAudioChannelType.UNMIXED, 
         start_media_streaming=False 
         ) 

call_connection_properties = call_automation_client.create_call(target_participant,  
                                                                    CALLBACK_EVENTS_URI, 
                                                                    cognitive_services_endpoint=COGNITIVE_SERVICES_ENDPOINT, 
                                                                    source_caller_id_number=source_caller, 
                                                                    media_streaming=media_streaming_options
)

音声ストリーミングを開始する

音声ストリーミングを開始する方法は次のとおりです。

call_connection_client.start_media_streaming()

メタデータパケットは次のようになります。

{ 
    "kind": <string> // What kind of data this is, e.g. AudioMetadata, AudioData. 
    "audioMetadata": { 
        "subscriptionId": <string>, // unique identifier for a subscription request 
        "encoding":<string>, // PCM only supported 
        "sampleRate": <int>, // 16000 default 
        "channels": <int>, // 1 default 
        "length": <int> // 640 default 
    } 
}

オーディオストリーミングを停止する

音声ストリーミングを停止する方法

call_connection_client.stop_media_streaming()

Websocket サーバーでの音声ストリームの処理

次のサンプルは、Websocket サーバーを使用して音声ストリームをリッスンする方法を示しています。

import asyncio 
import json 
import websockets 

async def handle_client(websocket, path): 
    print("Client connected") 
    try: 
        async for message in websocket: 
            print(message) 
            packet_data = json.loads(message) 
            packet_data = message.encode('utf-8') 
            print("Packet DATA:-->",packet_data) 

    except websockets.exceptions.ConnectionClosedOK: 
        print("Client disconnected") 

start_server = websockets.serve(handle_client, "localhost", 8081) 

print('WebSocket server running on port 8081') 

asyncio.get_event_loop().run_until_complete(start_server) 
asyncio.get_event_loop().run_forever()

オーディオストリーミングスキーマ

メタデータパケットの送信が完了すると、Azure Communication Services は WebSocket サーバーへのオーディオメディアのストリーミングを開始します。サーバーが受け取るメディアオブジェクトの例を次に示します。

{
    "kind": <string>, // What kind of data this is, e.g. AudioMetadata, AudioData.
    "audioData":{
        "data": <string>, // Base64 Encoded audio buffer data
        "timestamp": <string>, // In ISO 8601 format (yyyy-mm-ddThh:mm:ssZ) 
        "participantRawID": <string>, 
        "silent": <boolean> // Indicates if the received audio buffer contains only silence.
    }
}

リソースをクリーンアップする

Communication Services サブスクリプションをクリーンアップして解除する場合は、リソースまたはリソースグループを削除できます。リソースグループを削除すると、それに関連付けられている他のリソースも削除されます。詳細については、リソースのクリーンアップに関する記事を参照してください。

次のステップ

詳細については、「音声ストリーミング」を参照してください。
Call Automation とその機能の詳細を確認する。
再生アクションの詳細を確認する。
Recognize アクションの詳細を確認する。

次の方法で共有

クイックスタート: サーバー側音声ストリーミング

前提条件

Websocket サーバーを設定する

通話を確立する

音声ストリーミングを開始する

オーディオストリーミングを停止する

Websocket サーバーでの音声ストリームの処理

前提条件

Websocket サーバーを設定する

通話を確立する

音声ストリーミングを開始する

オーディオストリーミングを停止する

Websocket サーバーでのメディアストリームの処理

前提条件

Websocket サーバーを設定する

通話を確立する

音声ストリーミングを開始する

オーディオストリーミングを停止する

Websocket サーバーでの音声ストリームの処理

前提条件

Websocket サーバーを設定する

通話を確立する

音声ストリーミングを開始する

オーディオストリーミングを停止する

Websocket サーバーでの音声ストリームの処理

オーディオストリーミングスキーマ

リソースをクリーンアップする

次のステップ

フィードバック

その他のリソース

次の方法で共有

クイック スタート: サーバー側音声ストリーミング

前提条件

Websocket サーバーを設定する

通話を確立する

音声ストリーミングを開始する

オーディオ ストリーミングを停止する

Websocket サーバーでの音声ストリームの処理

前提条件

Websocket サーバーを設定する

通話を確立する

音声ストリーミングを開始する

オーディオ ストリーミングを停止する

Websocket サーバーでのメディア ストリームの処理

前提条件

Websocket サーバーを設定する

通話を確立する

音声ストリーミングを開始する

オーディオ ストリーミングを停止する

Websocket サーバーでの音声ストリームの処理

前提条件

Websocket サーバーを設定する

通話を確立する

音声ストリーミングを開始する

オーディオ ストリーミングを停止する

Websocket サーバーでの音声ストリームの処理

オーディオ ストリーミング スキーマ

リソースをクリーンアップする

次のステップ

フィードバック

その他のリソース

クイックスタート: サーバー側音声ストリーミング

オーディオストリーミングを停止する

オーディオストリーミングを停止する

Websocket サーバーでのメディアストリームの処理

オーディオストリーミングを停止する

オーディオストリーミングを停止する

オーディオストリーミングスキーマ