オンライン文字起こしエディターを使用する方法

オンライン文字起こしエディターを使用すると、Custom Speech 用に、音声と、人間によってラベル付けされた文字起こしを作成または編集できます。 エディターの主なユース ケースは次のとおりです。

  • 音声データしかないが、モデルのトレーニングで使用するために、正確な音声 + "人間" とラベルが付いたデータセットをゼロから作成する必要がある場合。
  • 音声 + "人間" とラベルが付いたデータセットは既に存在するが、文字起こしでエラーや不具合が生じている場合。 このエディターでは、文字起こしを簡単に変更して、トレーニングの精度を最大限に高めることができます。

文字起こしエディターを使用するための唯一の要件は、音声データを (対応する文字起こしと共に、または文字起こしなしで) アップロードしていることです。

[エディター] タブは、メインの [音声データセット] ページの [トレーニングおよびテスト データセット] タブの横にあります。

[エディター] タブを示す [音声データセット] ページのスクリーンショット。

[トレーニングおよびテスト データセット] タブ内のデータセットは更新できません。 トレーニングまたはテスト用のデータセットのコピーを [エディター] タブにインポートし、人間によってラベル付けされた文字起こしを音声に合わせて追加または編集した後で、編集されたデータセットを [トレーニングおよびテスト データセット] タブにエクスポートすることができます。エディターにあるデータセットを使用して、モデルをトレーニングまたはテストすることはできないことにも注意してください。

データセットをエディターにインポートする

データセットをエディターにインポートするには、次の手順に従います。

  1. Speech Studio にサインインします。
  2. [Custom Speech]> プロジェクト名 >[音声データセット]>[エディター] を選択します。
  3. [データのインポート] を選択します
  4. データセットを選択します。 音声データのみ、音声 + 人間とラベル付けされたデータ、またはその両方を選択できます。 音声のみのデータの場合は、既定のモデルを使用して、エディターにインポートした後で自動的に機械文字起こしを生成することができます。
  5. 新しいデータセットの名前と説明を入力し、[次へ] を選択します。
  6. 設定を確認し、[Import and close] (インポートして閉じる) を選択して、インポート プロセスを開始します。 データが正常にインポートされた後、データセットを選択して編集を開始できます。

Note

メインの [音声データセット] ページからデータセットを選択し、エディターにエクスポートすることもできます。 データセットを選択し、[エディターへのエクスポート] を選択します。

文字起こしを音声に合わせて編集する

データセットがエディターにインポートされたら、データセットの編集を開始できます。 人間によってラベル付けされた文字起こしを、耳で聞いた音声に合わせて追加または編集できます。 音声データは編集しません。

エディターでデータセットの文字起こしを編集するには、次の手順に従います。

  1. Speech Studio にサインインします。
  2. [Custom Speech]> プロジェクト名 >[音声データセット]>[エディター] を選択します。
  3. 名前に基づいてデータセットへのリンクを選択します。
  4. [音声 + テキスト ファイル] テーブルから、名前に基づいて音声ファイルへのリンクを選択します。
  5. 編集を行った後、[保存] を選択します。

データセットに複数のファイルがある場合は、[前へ][次へ] を選択して、ファイル間を移動できます。 各ファイルを編集し、変更を随時保存します。

詳細ページには、各音声ファイル内のすべてのセグメントが一覧表示され、目的の発話を選択できます。 発話ごとに、音声を再生し、対応する文字起こしと比較することができます。 挿入、削除、または置換のエラーが見つかった場合は、文字起こしを編集します。 単語エラーの種類の詳細については、「モデルを定量的にテストする」を参照してください。

エディターからデータセットをエクスポートする

エディター内のデータセットは、[トレーニングおよびテスト データセット] タブにエクスポートできます。そこで、モデルのトレーニングまたはテストに使用できます。

エディターからデータセットをエクスポートするには、次の手順に従います。

  1. Speech Studio にサインインします。
  2. [Custom Speech]> プロジェクト名 >[音声データセット]>[エディター] を選択します。
  3. 名前に基づいてデータセットへのリンクを選択します。
  4. [音声 + テキスト ファイル] テーブルから 1 つ以上の行を選択します。
  5. [エクスポート] を選択して、選択されたすべてのファイルを 1 つの新しいデータセットとしてエクスポートします。

ファイルは新しいデータセットとしてエクスポートされ、他のトレーニングまたはテスト用のデータセットに影響を与えたり置き換えたりすることはありません。

次のステップ