音声翻訳のクイックスタート - Speech Service - Azure AI services

リファレンスドキュメント | パッケージ (NuGet) | GitHub のその他のサンプル

このクイックスタートでは、ある言語の音声を別の言語のテキストに翻訳するためのアプリケーションを実行します。

ヒント

Azure AI Speech Toolkit を試して、Visual Studio Code でサンプルを簡単にビルドして実行します。

前提条件

Azure サブスクリプション。無料で作成できます。
Azure ポータルで、音声リソースを作成します。
Speech リソースキーとリージョンを取得します。音声リソースがデプロイされたら、[リソースに移動] を選択して、キーを表示および管理します。

環境をセットアップする

Speech SDK は NuGet パッケージとして提供されていて、.NET Standard 2.0 が実装されています。 Azure Cognitive Service for Speech SDK は、このガイドで後でインストールしますが、まず、これ以上要件がないか SDK のインストールガイドを確認してください。

環境変数の設定

Azure AI サービスにアクセスするには、アプリケーションを認証する必要があります。この記事では、環境変数を使って資格情報を格納する方法について説明します。その後、コードから環境変数にアクセスして、アプリケーションを認証できます。運用環境では、資格情報を保存してそれにアクセスする際に、安全性が高い方法を使用します。

重要

Microsoft Entra 認証と Azure リソースのマネージド ID を併用して、クラウドで実行されるアプリケーションに資格情報を格納しないようにすることをお勧めします。

API キーを使用する場合は、それを Azure Key Vault などの別の場所に安全に保存します。 API キーは、コード内に直接含めないようにし、絶対に公開しないでください。

AI サービスのセキュリティの詳細については、「Azure AI サービスに対する要求の認証」を参照してください。

Azure Cognitive Service for Speech リソースキーとリージョンの環境変数を設定するには、コンソールウィンドウを開き、使用しているオペレーティングシステムと開発環境についての指示に従います。

SPEECH_KEY 環境変数を設定するには、your-key をリソースのキーの 1 つに置き換えます。
SPEECH_REGION 環境変数を設定するには、your-region をリソースのリージョンの 1 つに置き換えます。

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Note

現在のコンソールで環境変数のみにアクセスする必要がある場合は、環境変数を setx の代わりに set に設定できます。

環境変数を追加した後、コンソールウィンドウを含め、環境変数を読み取る必要があるプログラムの再起動が必要になる場合があります。たとえば、Visual Studio をエディターとして使用している場合、サンプルを実行する前に Visual Studio を再起動します。

Bash

.bashrc ファイルを編集し、環境変数を追加します。

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

環境変数を追加した後、変更を有効にするには、コンソールウィンドウから source ~/.bashrc を実行します。

Bash

.bash_profile ファイルを編集し、環境変数を追加します。

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

環境変数を追加した後、変更を有効にするには、コンソールウィンドウから source ~/.bash_profile を実行します。

Xcode

iOS と macOS の開発では、Xcode で環境変数を設定します。たとえば、次の手順に従って、Xcode 13.4.1 で環境変数を設定します。

[製品]>[スキーム]>[スキームの編集] の順に選択します。
[実行] (デバッグ実行) ページで [引数] を選択します。
[環境変数] で、プラス記号 (+) を選択して、新しい環境変数を追加します。
[名前] に SPEECH_KEY を入力し、[値] に Azure Cognitive Service for Speech リソースキーを入力します。

Azure Cognitive Service for Speech リソースリージョンの環境変数を設定するには、同じ手順に従います。リソースのリージョンに SPEECH_REGION を設定します。たとえば、「 westus 」のように入力します。

その他の構成オプションについては、Xcode のドキュメントを参照してください。

マイクから音声を翻訳する

以下の手順に従って新しいコンソールアプリケーションを作成し、Speech SDK をインストールします。

新しいプロジェクトを作成するコマンドプロンプトを開き、.NET CLI を使用してコンソールアプリケーションを作成します。 Program.cs ファイルは、プロジェクトディレクトリに作成する必要があります。
```
dotnet new console
```
.NET CLI を使用して、新しいプロジェクトに Speech SDK をインストールします。
```
dotnet add package Microsoft.CognitiveServices.Speech
```

Program.cs の内容を以下のコードに置き換えます。

using System;
using System.IO;
using System.Threading.Tasks;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;
using Microsoft.CognitiveServices.Speech.Translation;

class Program 
{
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
    static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");

    static void OutputSpeechRecognitionResult(TranslationRecognitionResult translationRecognitionResult)
    {
        switch (translationRecognitionResult.Reason)
        {
            case ResultReason.TranslatedSpeech:
                Console.WriteLine($"RECOGNIZED: Text={translationRecognitionResult.Text}");
                foreach (var element in translationRecognitionResult.Translations)
                {
                    Console.WriteLine($"TRANSLATED into '{element.Key}': {element.Value}");
                }
                break;
            case ResultReason.NoMatch:
                Console.WriteLine($"NOMATCH: Speech could not be recognized.");
                break;
            case ResultReason.Canceled:
                var cancellation = CancellationDetails.FromResult(translationRecognitionResult);
                Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");

                if (cancellation.Reason == CancellationReason.Error)
                {
                    Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                    Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}");
                    Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                }
                break;
        }
    }

    async static Task Main(string[] args)
    {
        var speechTranslationConfig = SpeechTranslationConfig.FromSubscription(speechKey, speechRegion);        
        speechTranslationConfig.SpeechRecognitionLanguage = "en-US";
        speechTranslationConfig.AddTargetLanguage("it");

        using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
        using var translationRecognizer = new TranslationRecognizer(speechTranslationConfig, audioConfig);

        Console.WriteLine("Speak into your microphone.");
        var translationRecognitionResult = await translationRecognizer.RecognizeOnceAsync();
        OutputSpeechRecognitionResult(translationRecognitionResult);
    }
}

音声認識言語を変更するには、en-US を別のen-USに置き換えます。ダッシュ (-) を区切り記号として使って完全なロケールを指定します。たとえば、スペイン語 (スペイン) の場合は、es-ES を作成します。言語を指定しない場合、既定の言語は en-US です。話される可能性のある複数の言語の 1 つを識別する方法の詳細については、言語の識別に関するページを参照してください。
翻訳対象言語を変更するには、it を別のサポートされている言語に置き換えます。いくつか例外はありますが、ロケールのダッシュ (-) 区切り記号の前にある言語コードのみを指定します。たとえば、スペイン語 (スペイン) では、es-ES ではなく es を使います。言語を指定しない場合、既定の言語は en です。

新しいコンソールアプリケーションを実行して、マイクからの音声認識を開始します。

dotnet run

指示されたらマイクに向って話します。話した内容は、対象言語で翻訳されたテキストとして出力する必要があります。

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech translation.
TRANSLATED into 'it': Sono entusiasta di provare la traduzione vocale.

解説

クイックスタートを完了したので、次にいくつか追加の考慮事項を示します。

この例では、RecognizeOnceAsync 操作を使用して、最大 30 秒間、または無音が検出されるまでの発話を文字起こししています。多言語での会話を含め、より長いオーディオの継続的認識については、「音声を翻訳する方法」を参照してください。
オーディオファイルから音声を認識するには、FromDefaultMicrophoneInput の代わりに FromWavFileInput を使用します。
```
using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
```
MP4 などの圧縮されたオーディオファイルの場合は、GStreamer をインストールして、PullAudioInputStream または PushAudioInputStream を使います。詳しくは、「圧縮された入力オーディオを使用する方法」をご覧ください。

リソースをクリーンアップする

Azure portal または Azure コマンドラインインターフェイス (CLI) を使用して、作成した音声リソースを削除できます。

リファレンスドキュメント | パッケージ (NuGet) | GitHub のその他のサンプル

このクイックスタートでは、ある言語の音声を別の言語のテキストに翻訳するためのアプリケーションを実行します。

ヒント

Azure AI Speech Toolkit を試して、Visual Studio Code でサンプルを簡単にビルドして実行します。

前提条件

Azure サブスクリプション。無料で作成できます。
Azure ポータルで、音声リソースを作成します。
Speech リソースキーとリージョンを取得します。音声リソースがデプロイされたら、[リソースに移動] を選択して、キーを表示および管理します。

環境をセットアップする

Speech SDK は NuGet パッケージとして提供されていて、.NET Standard 2.0 が実装されています。 Speech SDK は、このガイドで後でインストールしますが、まず、これ以上要件がないか SDK のインストールガイドを確認してください。

環境変数の設定

Azure AI サービスにアクセスするには、アプリケーションを認証する必要があります。この記事では、環境変数を使って資格情報を格納する方法について説明します。その後、コードから環境変数にアクセスして、アプリケーションを認証できます。運用環境では、資格情報を保存してそれにアクセスする際に、安全性が高い方法を使用します。

重要

Microsoft Entra 認証と Azure リソースのマネージド ID を併用して、クラウドで実行されるアプリケーションに資格情報を格納しないようにすることをお勧めします。

API キーを使用する場合は、それを Azure Key Vault などの別の場所に安全に保存します。 API キーは、コード内に直接含めないようにし、絶対に公開しないでください。

AI サービスのセキュリティの詳細については、「Azure AI サービスに対する要求の認証」を参照してください。

Azure Cognitive Service for Speech リソースキーとリージョンの環境変数を設定するには、コンソールウィンドウを開き、使用しているオペレーティングシステムと開発環境についての指示に従います。

SPEECH_KEY 環境変数を設定するには、your-key をリソースのキーの 1 つに置き換えます。
SPEECH_REGION 環境変数を設定するには、your-region をリソースのリージョンの 1 つに置き換えます。

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Note

現在のコンソールで環境変数のみにアクセスする必要がある場合は、環境変数を setx の代わりに set に設定できます。

環境変数を追加した後、コンソールウィンドウを含め、環境変数を読み取る必要があるプログラムの再起動が必要になる場合があります。たとえば、Visual Studio をエディターとして使用している場合、サンプルを実行する前に Visual Studio を再起動します。

Bash

.bashrc ファイルを編集し、環境変数を追加します。

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

環境変数を追加した後、変更を有効にするには、コンソールウィンドウから source ~/.bashrc を実行します。

Bash

.bash_profile ファイルを編集し、環境変数を追加します。

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

環境変数を追加した後、変更を有効にするには、コンソールウィンドウから source ~/.bash_profile を実行します。

Xcode

iOS と macOS の開発では、Xcode で環境変数を設定します。たとえば、次の手順に従って、Xcode 13.4.1 で環境変数を設定します。

[製品]>[スキーム]>[スキームの編集] の順に選択します。
[実行] (デバッグ実行) ページで [引数] を選択します。
[環境変数] で、プラス記号 (+) を選択して、新しい環境変数を追加します。
[名前] に SPEECH_KEY を入力し、[値] に Azure Cognitive Service for Speech リソースキーを入力します。

Azure Cognitive Service for Speech リソースリージョンの環境変数を設定するには、同じ手順に従います。リソースのリージョンに SPEECH_REGION を設定します。たとえば、「 westus 」のように入力します。

その他の構成オプションについては、Xcode のドキュメントを参照してください。

マイクから音声を翻訳する

以下の手順に従って新しいコンソールアプリケーションを作成し、Speech SDK をインストールします。

Visual Studio Community 2022 で、SpeechTranslation という新しい C++ コンソールプロジェクトを作成します。
NuGet パッケージマネージャーを使用して、新しいプロジェクトに Speech SDK をインストールします。
```
Install-Package Microsoft.CognitiveServices.Speech
```

SpeechTranslation.cpp の内容を次のコードに置き換えます。

#include <iostream> 
#include <stdlib.h>
#include <speechapi_cxx.h>

using namespace Microsoft::CognitiveServices::Speech;
using namespace Microsoft::CognitiveServices::Speech::Audio;
using namespace Microsoft::CognitiveServices::Speech::Translation;

std::string GetEnvironmentVariable(const char* name);

int main()
{
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    auto speechKey = GetEnvironmentVariable("SPEECH_KEY");
    auto speechRegion = GetEnvironmentVariable("SPEECH_REGION");

    auto speechTranslationConfig = SpeechTranslationConfig::FromSubscription(speechKey, speechRegion);
    speechTranslationConfig->SetSpeechRecognitionLanguage("en-US");
    speechTranslationConfig->AddTargetLanguage("it");

    auto audioConfig = AudioConfig::FromDefaultMicrophoneInput();
    auto translationRecognizer = TranslationRecognizer::FromConfig(speechTranslationConfig, audioConfig);

    std::cout << "Speak into your microphone.\n";
    auto result = translationRecognizer->RecognizeOnceAsync().get();

    if (result->Reason == ResultReason::TranslatedSpeech)
    {
        std::cout << "RECOGNIZED: Text=" << result->Text << std::endl;
        for (auto pair : result->Translations)
        {
            auto language = pair.first;
            auto translation = pair.second;
            std::cout << "Translated into '" << language << "': " << translation << std::endl;
        }
    }
    else if (result->Reason == ResultReason::NoMatch)
    {
        std::cout << "NOMATCH: Speech could not be recognized." << std::endl;
    }
    else if (result->Reason == ResultReason::Canceled)
    {
        auto cancellation = CancellationDetails::FromResult(result);
        std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl;

        if (cancellation->Reason == CancellationReason::Error)
        {
            std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl;
            std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl;
            std::cout << "CANCELED: Did you set the speech resource key and region values?" << std::endl;
        }
    }
}

std::string GetEnvironmentVariable(const char* name)
{
#if defined(_MSC_VER)
    size_t requiredSize = 0;
    (void)getenv_s(&requiredSize, nullptr, 0, name);
    if (requiredSize == 0)
    {
        return "";
    }
    auto buffer = std::make_unique<char[]>(requiredSize);
    (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name);
    return buffer.get();
#else
    auto value = getenv(name);
    return value ? value : "";
#endif
}

音声認識言語を変更するには、en-US を別のen-USに置き換えます。ダッシュ (-) を区切り記号として使って完全なロケールを指定します。たとえば、スペイン語 (スペイン) の場合は、es-ES を作成します。言語を指定しない場合、既定の言語は en-US です。話される可能性のある複数の言語の 1 つを識別する方法の詳細については、言語の識別に関するページを参照してください。
翻訳対象言語を変更するには、it を別のサポートされている言語に置き換えます。いくつか例外はありますが、ロケールのダッシュ (-) 区切り記号の前にある言語コードのみを指定します。たとえば、スペイン語 (スペイン) では、es-ES ではなく es を使います。言語を指定しない場合、既定の言語は en です。

新しいコンソールアプリケーションをビルドして実行し、マイクからの音声認識を開始します。

指示されたらマイクに向って話します。話した内容は、対象言語で翻訳されたテキストとして出力する必要があります。

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech translation.
Translated into 'it': Sono entusiasta di provare la traduzione vocale.

解説

クイックスタートを完了したので、次にいくつか追加の考慮事項を示します。

この例では、RecognizeOnceAsync 操作を使用して、最大 30 秒間、または無音が検出されるまでの発話を文字起こししています。多言語での会話を含め、より長いオーディオの継続的認識については、「音声を翻訳する方法」を参照してください。
オーディオファイルから音声を認識するには、FromDefaultMicrophoneInput の代わりに FromWavFileInput を使用します。
```
auto audioInput = AudioConfig::FromWavFileInput("YourAudioFile.wav");
```
MP4 などの圧縮されたオーディオファイルの場合は、GStreamer をインストールして、PullAudioInputStream または PushAudioInputStream を使います。詳しくは、「圧縮された入力オーディオを使用する方法」をご覧ください。

リソースをクリーンアップする

Azure portal または Azure コマンドラインインターフェイス (CLI) を使用して、作成した音声リソースを削除できます。

リファレンスドキュメント | パッケージ (Go) | GitHub のその他のサンプル

Speech SDK for Go では、音声翻訳はサポートされていません。別のプログラミング言語を選択するか、この記事の冒頭でリンクされている、Go のリファレンスとサンプルを使用してください。

リファレンスドキュメント | GitHub のその他のサンプル

このクイックスタートでは、ある言語の音声を別の言語のテキストに翻訳するためのアプリケーションを実行します。

ヒント

Azure AI Speech Toolkit を試して、Visual Studio Code でサンプルを簡単にビルドして実行します。

前提条件

Azure サブスクリプション。無料で作成できます。
Azure ポータルで、音声リソースを作成します。
Speech リソースキーとリージョンを取得します。音声リソースがデプロイされたら、[リソースに移動] を選択して、キーを表示および管理します。

環境をセットアップする

何らかの操作を行うには、事前に Speech SDK をインストールしておく必要があります。このクイックスタートのサンプルは、Java ランタイムで動作します。

Apache Maven をインストールします。次に mvn -v を実行して、インストールが成功したことを確認します。

プロジェクトのルートに新しい pom.xml ファイルを作成し、その中に以下をコピーします。

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk</artifactId>
        <version>1.42.0</version>
        </dependency>
    </dependencies>
</project>

Speech SDK と依存関係をインストールします。
```
mvn clean dependency:copy-dependencies
```

環境変数の設定

Azure AI サービスにアクセスするには、アプリケーションを認証する必要があります。この記事では、環境変数を使って資格情報を格納する方法について説明します。その後、コードから環境変数にアクセスして、アプリケーションを認証できます。運用環境では、資格情報を保存してそれにアクセスする際に、安全性が高い方法を使用します。

重要

Microsoft Entra 認証と Azure リソースのマネージド ID を併用して、クラウドで実行されるアプリケーションに資格情報を格納しないようにすることをお勧めします。

API キーを使用する場合は、それを Azure Key Vault などの別の場所に安全に保存します。 API キーは、コード内に直接含めないようにし、絶対に公開しないでください。

AI サービスのセキュリティの詳細については、「Azure AI サービスに対する要求の認証」を参照してください。

Azure Cognitive Service for Speech リソースキーとリージョンの環境変数を設定するには、コンソールウィンドウを開き、使用しているオペレーティングシステムと開発環境についての指示に従います。

SPEECH_KEY 環境変数を設定するには、your-key をリソースのキーの 1 つに置き換えます。
SPEECH_REGION 環境変数を設定するには、your-region をリソースのリージョンの 1 つに置き換えます。

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Note

現在のコンソールで環境変数のみにアクセスする必要がある場合は、環境変数を setx の代わりに set に設定できます。

環境変数を追加した後、コンソールウィンドウを含め、環境変数を読み取る必要があるプログラムの再起動が必要になる場合があります。たとえば、Visual Studio をエディターとして使用している場合、サンプルを実行する前に Visual Studio を再起動します。

Bash

.bashrc ファイルを編集し、環境変数を追加します。

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

環境変数を追加した後、変更を有効にするには、コンソールウィンドウから source ~/.bashrc を実行します。

Bash

.bash_profile ファイルを編集し、環境変数を追加します。

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

環境変数を追加した後、変更を有効にするには、コンソールウィンドウから source ~/.bash_profile を実行します。

Xcode

iOS と macOS の開発では、Xcode で環境変数を設定します。たとえば、次の手順に従って、Xcode 13.4.1 で環境変数を設定します。

[製品]>[スキーム]>[スキームの編集] の順に選択します。
[実行] (デバッグ実行) ページで [引数] を選択します。
[環境変数] で、プラス記号 (+) を選択して、新しい環境変数を追加します。
[名前] に SPEECH_KEY を入力し、[値] に Azure Cognitive Service for Speech リソースキーを入力します。

Azure Cognitive Service for Speech リソースリージョンの環境変数を設定するには、同じ手順に従います。リソースのリージョンに SPEECH_REGION を設定します。たとえば、「 westus 」のように入力します。

その他の構成オプションについては、Xcode のドキュメントを参照してください。

マイクから音声を翻訳する

以下の手順に従って、音声認識のための新しいコンソールアプリケーションを作成します。

同じプロジェクトルートディレクトリに SpeechTranslation.java という新しいファイルを作成します。

SpeechTranslation.java に以下のコードをコピーします。

import com.microsoft.cognitiveservices.speech.*;
import com.microsoft.cognitiveservices.speech.audio.AudioConfig;
import com.microsoft.cognitiveservices.speech.translation.*;

import java.util.concurrent.ExecutionException;
import java.util.concurrent.Future;
import java.util.Map;

public class SpeechTranslation {
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    private static String speechKey = System.getenv("SPEECH_KEY");
    private static String speechRegion = System.getenv("SPEECH_REGION");

    public static void main(String[] args) throws InterruptedException, ExecutionException {
        SpeechTranslationConfig speechTranslationConfig = SpeechTranslationConfig.fromSubscription(speechKey, speechRegion);
        speechTranslationConfig.setSpeechRecognitionLanguage("en-US");

        String[] toLanguages = { "it" };
        for (String language : toLanguages) {
            speechTranslationConfig.addTargetLanguage(language);
        }

        recognizeFromMicrophone(speechTranslationConfig);
    }

    public static void recognizeFromMicrophone(SpeechTranslationConfig speechTranslationConfig) throws InterruptedException, ExecutionException {
        AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();
        TranslationRecognizer translationRecognizer = new TranslationRecognizer(speechTranslationConfig, audioConfig);

        System.out.println("Speak into your microphone.");
        Future<TranslationRecognitionResult> task = translationRecognizer.recognizeOnceAsync();
        TranslationRecognitionResult translationRecognitionResult = task.get();

        if (translationRecognitionResult.getReason() == ResultReason.TranslatedSpeech) {
            System.out.println("RECOGNIZED: Text=" + translationRecognitionResult.getText());
            for (Map.Entry<String, String> pair : translationRecognitionResult.getTranslations().entrySet()) {
                System.out.printf("Translated into '%s': %s\n", pair.getKey(), pair.getValue());
            }
        }
        else if (translationRecognitionResult.getReason() == ResultReason.NoMatch) {
            System.out.println("NOMATCH: Speech could not be recognized.");
        }
        else if (translationRecognitionResult.getReason() == ResultReason.Canceled) {
            CancellationDetails cancellation = CancellationDetails.fromResult(translationRecognitionResult);
            System.out.println("CANCELED: Reason=" + cancellation.getReason());

            if (cancellation.getReason() == CancellationReason.Error) {
                System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode());
                System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails());
                System.out.println("CANCELED: Did you set the speech resource key and region values?");
            }
        }

        System.exit(0);
    }
}

音声認識言語を変更するには、en-US を別のen-USに置き換えます。ダッシュ (-) を区切り記号として使って完全なロケールを指定します。たとえば、スペイン語 (スペイン) の場合は、es-ES を作成します。言語を指定しない場合、既定の言語は en-US です。話される可能性のある複数の言語の 1 つを識別する方法の詳細については、言語の識別に関するページを参照してください。
翻訳対象言語を変更するには、it を別のサポートされている言語に置き換えます。いくつか例外はありますが、ロケールのダッシュ (-) 区切り記号の前にある言語コードのみを指定します。たとえば、スペイン語 (スペイン) では、es-ES ではなく es を使います。言語を指定しない場合、既定の言語は en です。

新しいコンソールアプリケーションを実行して、マイクからの音声認識を開始します。

javac SpeechTranslation.java -cp ".;target\dependency\*"
java -cp ".;target\dependency\*" SpeechTranslation

指示されたらマイクに向って話します。話した内容は、対象言語で翻訳されたテキストとして出力する必要があります。

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech translation.
Translated into 'it': Sono entusiasta di provare la traduzione vocale.

解説

クイックスタートを完了したので、次にいくつか追加の考慮事項を示します。

この例では、RecognizeOnceAsync 操作を使用して、最大 30 秒間、または無音が検出されるまでの発話を文字起こししています。多言語での会話を含め、より長いオーディオの継続的認識については、「音声を翻訳する方法」を参照してください。
オーディオファイルから音声を認識するには、fromDefaultMicrophoneInput の代わりに fromWavFileInput を使用します。
```
AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
```
MP4 などの圧縮されたオーディオファイルの場合は、GStreamer をインストールして、PullAudioInputStream または PushAudioInputStream を使います。詳しくは、「圧縮された入力オーディオを使用する方法」をご覧ください。

リソースをクリーンアップする

Azure portal または Azure コマンドラインインターフェイス (CLI) を使用して、作成した音声リソースを削除できます。

リファレンスドキュメント | パッケージ (npm) | GitHub のその他のサンプル | ライブラリのソースコード

このクイックスタートでは、ある言語の音声を別の言語のテキストに翻訳するためのアプリケーションを実行します。

ヒント

Azure AI Speech Toolkit を試して、Visual Studio Code でサンプルを簡単にビルドして実行します。

前提条件

Azure サブスクリプション。無料で作成できます。
Azure ポータルで、音声リソースを作成します。
Speech リソースキーとリージョンを取得します。音声リソースがデプロイされたら、[リソースに移動] を選択して、キーを表示および管理します。

環境をセットアップする

何らかの操作を行うには、事前に Speech SDK for JavaScript をインストールしておく必要があります。パッケージ名のインストールだけが必要な場合は、npm install microsoft-cognitiveservices-speech-sdk を実行します。詳しいインストール手順については、SDK のインストールガイドを参照してください。

環境変数の設定

Azure AI サービスにアクセスするには、アプリケーションを認証する必要があります。この記事では、環境変数を使って資格情報を格納する方法について説明します。その後、コードから環境変数にアクセスして、アプリケーションを認証できます。運用環境では、資格情報を保存してそれにアクセスする際に、安全性が高い方法を使用します。

重要

Microsoft Entra 認証と Azure リソースのマネージド ID を併用して、クラウドで実行されるアプリケーションに資格情報を格納しないようにすることをお勧めします。

API キーを使用する場合は、それを Azure Key Vault などの別の場所に安全に保存します。 API キーは、コード内に直接含めないようにし、絶対に公開しないでください。

AI サービスのセキュリティの詳細については、「Azure AI サービスに対する要求の認証」を参照してください。

Azure Cognitive Service for Speech リソースキーとリージョンの環境変数を設定するには、コンソールウィンドウを開き、使用しているオペレーティングシステムと開発環境についての指示に従います。

SPEECH_KEY 環境変数を設定するには、your-key をリソースのキーの 1 つに置き換えます。
SPEECH_REGION 環境変数を設定するには、your-region をリソースのリージョンの 1 つに置き換えます。

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Note

現在のコンソールで環境変数のみにアクセスする必要がある場合は、環境変数を setx の代わりに set に設定できます。

環境変数を追加した後、コンソールウィンドウを含め、環境変数を読み取る必要があるプログラムの再起動が必要になる場合があります。たとえば、Visual Studio をエディターとして使用している場合、サンプルを実行する前に Visual Studio を再起動します。

Bash

.bashrc ファイルを編集し、環境変数を追加します。

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

環境変数を追加した後、変更を有効にするには、コンソールウィンドウから source ~/.bashrc を実行します。

Bash

.bash_profile ファイルを編集し、環境変数を追加します。

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

環境変数を追加した後、変更を有効にするには、コンソールウィンドウから source ~/.bash_profile を実行します。

Xcode

iOS と macOS の開発では、Xcode で環境変数を設定します。たとえば、次の手順に従って、Xcode 13.4.1 で環境変数を設定します。

[製品]>[スキーム]>[スキームの編集] の順に選択します。
[実行] (デバッグ実行) ページで [引数] を選択します。
[環境変数] で、プラス記号 (+) を選択して、新しい環境変数を追加します。
[名前] に SPEECH_KEY を入力し、[値] に Azure Cognitive Service for Speech リソースキーを入力します。

Azure Cognitive Service for Speech リソースリージョンの環境変数を設定するには、同じ手順に従います。リソースのリージョンに SPEECH_REGION を設定します。たとえば、「 westus 」のように入力します。

その他の構成オプションについては、Xcode のドキュメントを参照してください。

ファイルから音声を翻訳する

以下の手順に従って、音声認識のための Node.js コンソールアプリケーションを作成します。

新しいプロジェクトを作成するコマンドプロンプトを開き、SpeechTranslation.js という名前の新しいファイルを作成します。
Speech SDK for JavaScript をインストールします。
```
npm install microsoft-cognitiveservices-speech-sdk
```

SpeechTranslation.js に以下のコードをコピーします。

const fs = require("fs");
const sdk = require("microsoft-cognitiveservices-speech-sdk");

// This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
const speechTranslationConfig = sdk.SpeechTranslationConfig.fromSubscription(process.env.SPEECH_KEY, process.env.SPEECH_REGION);
speechTranslationConfig.speechRecognitionLanguage = "en-US";

var language = "it";
speechTranslationConfig.addTargetLanguage(language);

function fromFile() {
    let audioConfig = sdk.AudioConfig.fromWavFileInput(fs.readFileSync("YourAudioFile.wav"));
    let translationRecognizer = new sdk.TranslationRecognizer(speechTranslationConfig, audioConfig);

    translationRecognizer.recognizeOnceAsync(result => {
        switch (result.reason) {
            case sdk.ResultReason.TranslatedSpeech:
                console.log(`RECOGNIZED: Text=${result.text}`);
                console.log("Translated into [" + language + "]: " + result.translations.get(language));

                break;
            case sdk.ResultReason.NoMatch:
                console.log("NOMATCH: Speech could not be recognized.");
                break;
            case sdk.ResultReason.Canceled:
                const cancellation = sdk.CancellationDetails.fromResult(result);
                console.log(`CANCELED: Reason=${cancellation.reason}`);

                if (cancellation.reason == sdk.CancellationReason.Error) {
                    console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`);
                    console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`);
                    console.log("CANCELED: Did you set the speech resource key and region values?");
                }
                break;
        }
        translationRecognizer.close();
    });
}
fromFile();

SpeechTranslation.js 内で、YourAudioFile.wav を独自の WAV ファイルに置き換えます。この例では、WAV ファイルからの音声のみを認識します。他の音声形式について詳しくは、「圧縮された入力オーディオを使用する方法」をご覧ください。この例では、最大 30 秒の音声をサポートしています。
音声認識言語を変更するには、en-US を別のen-USに置き換えます。ダッシュ (-) を区切り記号として使って完全なロケールを指定します。たとえば、スペイン語 (スペイン) の場合は、es-ES を作成します。言語を指定しない場合、既定の言語は en-US です。話される可能性のある複数の言語の 1 つを識別する方法の詳細については、言語の識別に関するページを参照してください。
翻訳対象言語を変更するには、it を別のサポートされている言語に置き換えます。いくつか例外はありますが、ロケールのダッシュ (-) 区切り記号の前にある言語コードのみを指定します。たとえば、スペイン語 (スペイン) では、es-ES ではなく es を使います。言語を指定しない場合、既定の言語は en です。

新しいコンソールアプリケーションを実行して、ファイルからの音声認識を開始します。

node.exe SpeechTranslation.js

音声ファイルからのスピーチは、対象言語で翻訳されたテキストとして出力する必要があります。

RECOGNIZED: Text=I'm excited to try speech translation.
Translated into [it]: Sono entusiasta di provare la traduzione vocale.

解説

クイックスタートを完了したので、次にいくつか追加の考慮事項を示します。

この例では、recognizeOnceAsync 操作を使用して、最大 30 秒間、または無音が検出されるまでの発話を文字起こししています。多言語での会話を含め、より長いオーディオの継続的認識については、「音声を翻訳する方法」を参照してください。

注意

マイクからの音声認識は、Node.js ではサポートされていません。これがサポートされているのは、ブラウザーベースの JavaScript 環境内のみです。

リソースをクリーンアップする

Azure portal または Azure コマンドラインインターフェイス (CLI) を使用して、作成した音声リソースを削除できます。

リファレンスドキュメント | パッケージ (ダウンロード) | GitHub のその他のサンプル

Speech SDK for Objective-C では音声翻訳がサポートされますが、そのガイドはまだ、ここには含まれていません。作業を開始するには別のプログラミング言語を選択して概念について学ぶか、この記事の冒頭でリンクされている Objective-C のリファレンスとサンプルを参照してください。

リファレンスドキュメント | パッケージ (ダウンロード) | GitHub 上のその他のサンプル

Speech SDK for Swift では音声翻訳がサポートされますが、そのガイドはまだ、ここには含まれていません。作業を開始するには、別のプログラミング言語を選択して概念について学ぶか、この記事の冒頭でリンクされている、Swift のリファレンスとサンプルを参照してください。

リファレンスドキュメント | パッケージ (PyPi) | GitHub のその他のサンプル

このクイックスタートでは、ある言語の音声を別の言語のテキストに翻訳するためのアプリケーションを実行します。

ヒント

Azure AI Speech Toolkit を試して、Visual Studio Code でサンプルを簡単にビルドして実行します。

前提条件

Azure サブスクリプション。無料で作成できます。
Azure ポータルで、音声リソースを作成します。
Speech リソースキーとリージョンを取得します。音声リソースがデプロイされたら、[リソースに移動] を選択して、キーを表示および管理します。

環境をセットアップする

Speech SDK Python は、Python パッケージインデックス (PyPI) モジュールとして入手できます。 Speech SDK for Python は、Windows、Linux、macOS との互換性があります。

お使いのプラットフォームに対応した Microsoft Visual Studio の Visual C++ 再頒布可能パッケージ 2015、2017、2019、そして2022をインストールする必要があります。このパッケージを初めてインストールする場合、再起動が必要になる可能性があります。
Linux では、x64 ターゲットアーキテクチャを使う必要があります。

Python の 3.7 以降のバージョンをインストールします。最初に、これ以上要件がないか、SDK のインストールガイドを確認してください

環境変数の設定

Azure AI サービスにアクセスするには、アプリケーションを認証する必要があります。この記事では、環境変数を使って資格情報を格納する方法について説明します。その後、コードから環境変数にアクセスして、アプリケーションを認証できます。運用環境では、資格情報を保存してそれにアクセスする際に、安全性が高い方法を使用します。

重要

Microsoft Entra 認証と Azure リソースのマネージド ID を併用して、クラウドで実行されるアプリケーションに資格情報を格納しないようにすることをお勧めします。

API キーを使用する場合は、それを Azure Key Vault などの別の場所に安全に保存します。 API キーは、コード内に直接含めないようにし、絶対に公開しないでください。

AI サービスのセキュリティの詳細については、「Azure AI サービスに対する要求の認証」を参照してください。

Azure Cognitive Service for Speech リソースキーとリージョンの環境変数を設定するには、コンソールウィンドウを開き、使用しているオペレーティングシステムと開発環境についての指示に従います。

SPEECH_KEY 環境変数を設定するには、your-key をリソースのキーの 1 つに置き換えます。
SPEECH_REGION 環境変数を設定するには、your-region をリソースのリージョンの 1 つに置き換えます。

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Note

現在のコンソールで環境変数のみにアクセスする必要がある場合は、環境変数を setx の代わりに set に設定できます。

環境変数を追加した後、コンソールウィンドウを含め、環境変数を読み取る必要があるプログラムの再起動が必要になる場合があります。たとえば、Visual Studio をエディターとして使用している場合、サンプルを実行する前に Visual Studio を再起動します。

Bash

.bashrc ファイルを編集し、環境変数を追加します。

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

環境変数を追加した後、変更を有効にするには、コンソールウィンドウから source ~/.bashrc を実行します。

Bash

.bash_profile ファイルを編集し、環境変数を追加します。

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

環境変数を追加した後、変更を有効にするには、コンソールウィンドウから source ~/.bash_profile を実行します。

Xcode

iOS と macOS の開発では、Xcode で環境変数を設定します。たとえば、次の手順に従って、Xcode 13.4.1 で環境変数を設定します。

[製品]>[スキーム]>[スキームの編集] の順に選択します。
[実行] (デバッグ実行) ページで [引数] を選択します。
[環境変数] で、プラス記号 (+) を選択して、新しい環境変数を追加します。
[名前] に SPEECH_KEY を入力し、[値] に Azure Cognitive Service for Speech リソースキーを入力します。

Azure Cognitive Service for Speech リソースリージョンの環境変数を設定するには、同じ手順に従います。リソースのリージョンに SPEECH_REGION を設定します。たとえば、「 westus 」のように入力します。

その他の構成オプションについては、Xcode のドキュメントを参照してください。

マイクから音声を翻訳する

次の手順を実行して、新しいコンソールアプリケーションを作成します。

新しいプロジェクトを作成するコマンドプロンプトを開き、speech_translation.py という名前の新しいファイルを作成します。
次のコマンドを実行して、Speech SDK をインストールします。
```
pip install azure-cognitiveservices-speech
```

speech_translation.py に以下のコードをコピーします。

import os
import azure.cognitiveservices.speech as speechsdk

def recognize_from_microphone():
    # This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    speech_translation_config = speechsdk.translation.SpeechTranslationConfig(subscription=os.environ.get('SPEECH_KEY'), region=os.environ.get('SPEECH_REGION'))
    speech_translation_config.speech_recognition_language="en-US"

    to_language ="it"
    speech_translation_config.add_target_language(to_language)

    audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)
    translation_recognizer = speechsdk.translation.TranslationRecognizer(translation_config=speech_translation_config, audio_config=audio_config)

    print("Speak into your microphone.")
    translation_recognition_result = translation_recognizer.recognize_once_async().get()

    if translation_recognition_result.reason == speechsdk.ResultReason.TranslatedSpeech:
        print("Recognized: {}".format(translation_recognition_result.text))
        print("""Translated into '{}': {}""".format(
            to_language, 
            translation_recognition_result.translations[to_language]))
    elif translation_recognition_result.reason == speechsdk.ResultReason.NoMatch:
        print("No speech could be recognized: {}".format(translation_recognition_result.no_match_details))
    elif translation_recognition_result.reason == speechsdk.ResultReason.Canceled:
        cancellation_details = translation_recognition_result.cancellation_details
        print("Speech Recognition canceled: {}".format(cancellation_details.reason))
        if cancellation_details.reason == speechsdk.CancellationReason.Error:
            print("Error details: {}".format(cancellation_details.error_details))
            print("Did you set the speech resource key and region values?")

recognize_from_microphone()

音声認識言語を変更するには、en-US を別のen-USに置き換えます。ダッシュ (-) を区切り記号として使って完全なロケールを指定します。たとえば、スペイン語 (スペイン) の場合は、es-ES を作成します。言語を指定しない場合、既定の言語は en-US です。話される可能性のある複数の言語の 1 つを識別する方法の詳細については、言語の識別に関するページを参照してください。
翻訳対象言語を変更するには、it を別のサポートされている言語に置き換えます。いくつか例外はありますが、ロケールのダッシュ (-) 区切り記号の前にある言語コードのみを指定します。たとえば、スペイン語 (スペイン) では、es-ES ではなく es を使います。言語を指定しない場合、既定の言語は en です。

新しいコンソールアプリケーションを実行して、マイクからの音声認識を開始します。

python speech_translation.py

指示されたらマイクに向って話します。話した内容は、対象言語で翻訳されたテキストとして出力する必要があります。

Speak into your microphone.
Recognized: I'm excited to try speech translation.
Translated into 'it': Sono entusiasta di provare la traduzione vocale.

解説

クイックスタートを完了したので、次にいくつか追加の考慮事項を示します。

この例では、recognize_once_async 操作を使用して、最大 30 秒間、または無音が検出されるまでの発話を文字起こししています。多言語での会話を含め、より長いオーディオの継続的認識については、「音声を翻訳する方法」を参照してください。
オーディオファイルから音声を認識するには、use_default_microphone の代わりに filename を使用します。
```
audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")
```
MP4 などの圧縮されたオーディオファイルの場合は、GStreamer をインストールして、PullAudioInputStream または PushAudioInputStream を使います。詳しくは、「圧縮された入力オーディオを使用する方法」をご覧ください。

リソースをクリーンアップする

Azure portal または Azure コマンドラインインターフェイス (CLI) を使用して、作成した音声リソースを削除できます。

Speech to Text REST API リファレンス | Speech to Text REST API for short audio リファレンス | GitHub のその他のサンプル

REST API では、音声翻訳はサポートされていません。このページの上部で、別のプログラミング言語またはツールを選択してください。

このクイックスタートでは、ある言語の音声を別の言語のテキストに翻訳するためのアプリケーションを実行します。

ヒント

Azure AI Speech Toolkit を試して、Visual Studio Code でサンプルを簡単にビルドして実行します。

前提条件

Azure サブスクリプション。無料で作成できます。
Azure ポータルで、音声リソースを作成します。
Speech リソースキーとリージョンを取得します。音声リソースがデプロイされたら、[リソースに移動] を選択して、キーを表示および管理します。

環境をセットアップする

次の手順を実行し、対象プラットフォームに対する他の要件を Azure Cognitive Service for Speech CLI クイックスタートで確認します。

次の .NET CLI コマンドを実行して、Speech CLI をインストールします。
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
次のコマンドを実行して、Azure Cognitive Service for Speech リソースのキーとリージョンを構成します。 SUBSCRIPTION-KEY は Speech リソースのキーに、REGION は Speech リソースのリージョンに置き換えます。
- ターミナル
- PowerShell
```
spx config @key --set SUBSCRIPTION-KEY
spx config @region --set REGION
```
```
spx --% config @key --set SUBSCRIPTION-KEY
spx --% config @region --set REGION
```

マイクからのスピーチを翻訳する

次のコマンドを実行して、マイクからのスピーチを英語からイタリア語に翻訳します。

spx translate --source en-US --target it --microphone

マイクに向かって話すと、翻訳されたスピーチが文字起こしされ、リアルタイムで表示されます。 Speech CLI は、無音の状態で一定時間 (30 秒) が経過するか、Ctrl + C キーを押したときに停止します。

Connection CONNECTED...
TRANSLATING into 'it': Sono (from 'I'm')
TRANSLATING into 'it': Sono entusiasta (from 'I'm excited to')
TRANSLATING into 'it': Sono entusiasta di provare la parola (from 'I'm excited to try speech')
TRANSLATED into 'it': Sono entusiasta di provare la traduzione vocale. (from 'I'm excited to try speech translation.')

解説

クイックスタートを完了したので、次にいくつか追加の考慮事項を示します。

オーディオファイルからスピーチを取得するには、--microphone の代わりに --file を使用します。 MP4 などの圧縮されたオーディオファイルの場合は、GStreamer をインストールして、--format を使います。詳しくは、「圧縮された入力オーディオを使用する方法」をご覧ください。
- ターミナル
- PowerShell
```
spx translate --source en-US --target it --file YourAudioFile.wav
spx translate --source en-US --target it --file YourAudioFile.mp4 --format any
```
```
spx translate --source en-US --target it --file YourAudioFile.wav
spx translate --source en-US --target it --file YourAudioFile.mp4 --format any
```

特定の単語または発話の認識精度を高めるには、フレーズリストを使用します。フレーズリストは、インラインで、またはテキストファイルで含めます。

ターミナル
PowerShell

spx translate --source en-US --target it --microphone --phrases "Contoso;Jessie;Rehaan;"
spx translate --source en-US --target it --microphone --phrases @phrases.txt

spx --% translate --source en-US --target it --microphone --phrases "Contoso;Jessie;Rehaan;"
spx --% translate --source en-US --target it --microphone --phrases @phrases.txt

音声認識言語を変更するには、en-US を別のen-USに置き換えます。ダッシュ (-) を区切り記号として使って完全なロケールを指定します。たとえば、スペイン語 (スペイン) の場合は、es-ES を作成します。言語を指定しない場合、既定の言語は en-US です。
```
spx translate --microphone --source es-ES
```
翻訳対象言語を変更するには、it を別のサポートされている言語に置き換えます。いくつか例外はありますが、ロケールのダッシュ (-) 区切り記号の前にある言語コードのみを指定します。たとえば、スペイン語 (スペイン) では、es-ES ではなく es を使います。言語を指定しない場合、既定の言語は en です。
```
spx translate --microphone --target es
```
30 秒よりも長いオーディオを継続的に認識する場合は、--continuous を追加します。
```
spx translate --source en-US --target it --microphone --continuous
```

ファイルの入力や出力など、音声翻訳の他のオプションに関する情報を見るには、次のコマンドを実行します。

spx help translate

リソースをクリーンアップする

Azure portal または Azure コマンドラインインターフェイス (CLI) を使用して、作成した音声リソースを削除できます。

次の方法で共有

クイックスタート: 音声を認識してテキストに翻訳する

前提条件

環境をセットアップする

環境変数の設定

マイクから音声を翻訳する

解説

リソースをクリーンアップする

前提条件

環境をセットアップする

環境変数の設定

マイクから音声を翻訳する

解説

リソースをクリーンアップする

前提条件

環境をセットアップする

環境変数の設定

マイクから音声を翻訳する

解説

リソースをクリーンアップする

前提条件

環境をセットアップする

環境変数の設定

ファイルから音声を翻訳する

解説

リソースをクリーンアップする

前提条件

環境をセットアップする

環境変数の設定

マイクから音声を翻訳する

解説

リソースをクリーンアップする

前提条件

環境をセットアップする

マイクからのスピーチを翻訳する

解説

リソースをクリーンアップする

次の手順

フィードバック

その他のリソース