Azure AI Video Indexer の概要

[アーティクル]
10/09/2024

Azure AI Video Indexer は、Azure AI サービス (Face、Translator、Azure AI Vision、Speech など) 上に構築された、Azure AI サービスの一部であるクラウドアプリケーションです。これによって Azure AI Video Indexer のビデオおよびオーディオモデルを使用して、ビデオから分析情報を抽出することが可能になります。

Azure AI Video Indexer は、30 個以上の AI モデルを実行することでビデオおよびオーディオコンテンツを分析し、豊富な分析情報を生成します。以下の図は、Azure AI Video Indexer によってバックグラウンドで実行されるオーディオとビデオの分析を示しています:

Azure AI Video Indexer を使用して分析情報の抽出を開始するには、以下の「作業の開始方法」セクションを参照してください。

Azure AI Video Indexer を使用して何ができますか?

Azure AI Video Indexer の分析情報は、多くのシナリオに適用できます。

ディープ検索: ビデオから抽出された分析情報を使用して、ビデオライブラリ全体での検索エクスペリエンスを強化します。たとえば、話されている語句と顔にインデックスを作成すると、人物が特定の単語をいつ話したかや、2 人の人物がいつ会っていたかを検索できるようになります。ビデオからのこのような分析情報に基づいた検索は、通信社、教育機関、放送局、エンターテイメントコンテンツの所有者、エンタープライズ LOB アプリにとって利用価値があり、一般には、ユーザーが検索の対象にするビデオライブラリを保有するすべての業界が対象になります。
コンテンツ作成: Azure AI Video Indexer がコンテンツから抽出する分析情報に基づいて、トレーラー、ハイライトリール、ソーシャルメディアコンテンツまたはニュースクリップを作成します。人物とラベルの外観用のキーフレーム、シーンマーカー、タイムスタンプにより、作成プロセスがより円滑で簡単になり、コンテンツの作成中に必要なビデオの部分に容易にアクセスできるようになります。
アクセシビリティ: コンテンツを障碍のある人々が利用できるようにしたい場合や、コンテンツをさまざまな言語を使用してさまざまなリージョンに配布したい場合には、Azure AI Video Indexer によって複数の言語で提供される文字起こしと翻訳が使用できます。
収益化: Azure AI Video Indexer は、ビデオの価値の向上に役立ちます。たとえば、広告収入に依存している業界 (ニュースメディア、ソーシャルメディアなど) では、抽出した分析情報を広告サーバーへの追加のシグナルとして利用することで、関連広告を提供できます。
コンテンツモデレーション: テキストとビジュアルのコンテンツモデレーションモデルを使用して、不適切なコンテンツからユーザーの安全を維持し、公開したコンテンツが組織の値と一致することを検証します。コンテンツに関して、特定のビデオを自動的にブロックしたり、ユーザーに通知したりすることができます。
推奨事項:ビデオの分析情報は、ユーザーに関連のあるビデオモーメントを強調表示することで、ユーザーエンゲージメントを向上させるために使用できます。各ビデオに追加のメタデータをタグ付けすることで、ユーザーに最も関連性の高いビデオを推奨し、ニーズに合うビデオの部分を強調表示することができます。

ビデオ/オーディオの AI 機能

次の一覧は、Azure AI Video Indexer のビデオおよびオーディオの AI 機能 (モデル) を使用して、ビデオまたはオーディオファイルから取得できる分析情報を示しています。

Note

プライバシーと規制の要件を考えると、これらの機能の一部では、使用が制限されたり、完全に利用するために承認が必要になったりします。

特に指定がない限り、モデルは一般提供されます。

ビデオモデル

顔検出:ビデオに表示される顔を検出し、グループ化します。
著名人の識別: 世界中のリーダー、俳優、アーティスト、アスリート、研究者、ビジネスリーダー、技術リーダーなど、100 万人を超える著名人を識別します。これらの著名人に関するデータは、さまざまな Web サイト (IMDB、Wikipedia など) でも見つけることができます。
アカウントベースの顔識別: 特定のアカウントのモデルをトレーニングします。その後、トレーニングされたモデルに基づいてビデオ内の顔を認識します。詳細については、「Azure AI Video Indexer の Web サイトからの人物モデルのカスタマイズ」と「Azure AI Video Indexer API を使用した人物モデルのカスタマイズ」を参照してください。
顔のサムネイルの抽出: 顔の各グループでキャプチャされた最適な顔を (品質、サイズ、正面位置に基づいて) 識別し、それをイメージアセットとして抽出します。
光学式文字認識 (OCR): メディアファイル内の写真、道路標識、商品などの画像からテキストを抽出し、分析情報を作成します。
ビジュアルコンテンツモデレーション:成人向けやわいせつなビジュアルを検出します。
ラベルの識別:表示されるビジュアルオブジェクトとアクションを識別します。
シーンのセグメント化: 視覚的な手掛かりに基づいて、ビデオ内でシーンが変化するタイミングを決定します。シーンは単一のイベントを表し、意味的に関連する一連の連続したショットで構成されます。
ショット検出:視覚的な手掛かりに基づいて、ビデオ内のショットが変化するタイミングを決定します。ショットは、同じ動画カメラから撮影された一連のフレームです。詳細については、「Scenes, shots, and keyframes」(シーン、ショット、キーフレーム) を参照してください。
黒フレームの検出:ビデオに表示された黒フレームを識別します。
キーフレームの抽出:ビデオ内の安定したキーフレームを検出します。
ローリングクレジット: テレビ番組や映画の終わりにあるローリングクレジットの始まりと終わりを識別します。
編集ショットタイプの検出: タイプに基づいてショットをタグ付けします (ワイドショット、ミディアムショット、クローズアップ、エクストリームクローズアップ、2 ショット、複数の人物、屋外、室内など)。詳細については、「編集ショットタイプの検出」を参照してください。
観察された人物の検出: ビデオ内の観察されたユーザーを検出し、ビデオフレーム内の人物の位置 (境界ボックスを使用) や正確なタイムスタンプ (開始、終了)、人物が表示されたときの信頼度などの情報を提供します。詳細については、「Trace observed people in a video」(ビデオ内で確認されたユーザーを追跡する)を参照してください。
- 一致した人物: ビデオで観察された人物を、検出された対応する顔と照合します。観察された人物と顔との照合には、信頼レベルが含まれます。
- 検出された衣類: ビデオに表示される人の服の種類を検出し、長いまたは短い袖、長いまたは短いパンツ、スカートやドレスなどの情報を提供します。検出された衣服はそれを着ている人に関連付けられ、正確なタイムスタンプ (開始、終了) と検出の信頼度が提供されます。
- 注目の服: ビデオに表示される注目の服の画像をキャプチャします。特徴化した衣服の分析情報を利用して、ターゲット広告を改善することができます。特徴化した衣服の画像のランク付けと分析情報の取得方法については、特徴化した衣服に関する記事を参照してください。
オブジェクト検出 フレームに戻った場合に認識されるように、追跡される一意のオブジェクトも検出します。 Azure AI Video Indexer オブジェクト検出を参照してください
スレート検出: 高度なインデックス作成オプションを使用してビデオのインデックスを作成するときに、次の映画の制作後の分析情報を識別します。
- メタデータ抽出によるカチンコの検出。
- カラーバーを含むデジタルパターン検出。
- シーンマッチングを含むテキストレススレート検出。
詳細については、スレート検出に関する記事を参照してください。
テキストロゴ検出: Azure AI Video Indexer OCR を使用して、特定の定義済みテキストと一致します。たとえば、ユーザーが "Microsoft" というテキストロゴを作成した場合、外観が異なる Microsoft という単語が "Microsoft" ロゴとして検出されます。詳細については、「テキストロゴを検出する」を参照してください。

オーディオモデル

音声の文字起こし: 50 を超える言語で音声をテキストに変換します。拡張機能を使用できます。詳細については、「Azure AI Video Indexer の言語サポート」を参照してください。
自動言語検出: 主要な音声言葉を識別します。詳細については、「Azure AI Video Indexer の言語サポート」を参照してください。言語を確実に識別できない場合、Azure AI Video Indexer は音声言語が英語であると想定します。
複数言語の音声識別と文字起こし: 音声からさまざまな区分にある音声言語を識別します。書き起こされるようにメディアファイルの各セグメントを送信した後、文字起こしが 1 つの統合された文字起こしに結合されます。文字起こしの詳細については、「 Transcription」を参照してください。
字幕:VTT、TML、SRT という 3 つの形式で字幕を作成します。
2 チャネル処理:個別のトランスクリプトを自動検出し、1 つのタイムラインに結合します。
ノイズリダクション:(Skype フィルターに基づいて) テレフォニー音声やノイズの多い録音を明瞭にします。
トランスクリプトのカスタマイズ (CRIS):音声テキスト変換のカスタムモデルをトレーニングして、業界固有のトランスクリプトを作成します。詳細については、「言語モデルのカスタマイズ」を参照してください。
話者の列挙:どの話者がどの言葉をいつ話したかをマップして認識します。 16 人の話者を 1 つの音声ファイルで検出できます。
話者の統計情報:話者の音声率の統計情報を提供します。
テキストのコンテンツモデレーション:音声トランスクリプト内の明示的なテキストを検出します。
テキストベースの感情検出: トランスクリプト分析によって検出された喜び、悲しみ、怒り、恐怖などの感情。
翻訳: 音声トランスクリプトの、多くの異なる言語への翻訳を作成します。詳細については、「Azure AI Video Indexer の言語サポート」を参照してください。
オーディオ効果の検出: コンテンツの非音声セグメントで、アラームまたはサイレン、犬の吠え、群衆の反応 (応援、拍手、ブーイング)、銃声または爆発、笑い、ガラスの破損、静音の音声効果を検出します。

検出される音響イベントはクローズドキャプションファイルにあります。このファイルは、Azure AI Video Indexer の Web サイトからダウンロードできます。詳細については、「オーディオ効果の検出」を参照してください。

Note

イベントの完全なセットは、アップロードプリセットでファイルをアップロードするときに高度な音声分析を選択した場合にのみ使用できます。既定では、無音のみが検出されます。

オーディオとビデオのモデル (マルチチャンネル)

1 つのチャンネルでインデックスを付けるときは、これらのモデルの部分的な結果を利用できます。

キーワードの抽出:音声と視覚テキストからキーワードを抽出します。
名前付きエンティティの抽出:自然言語処理 (NLP) を使用して、音声および視覚テキストからブランド、場所、および人物を抽出します。
トピックの推定: さまざまなキーワードに基づいて、トピックを抽出します (つまり、"証券取引"、"ウォール街" というキーワードから "経済" というトピックが生成されます)。このモデルでは、3 つの異なるオントロジー (IPTC、Wikipedia、および Video Indexer の階層型トピックオントロジー) を使用します。このモデルでは、文字起こし (話し言葉)、OCR コンテンツ (ビジュアルテキスト)、および Video Indexer の顔認識モデルを使用してビデオで認識された著名人を使用します。
成果物:各モデルについて、"次のレベルの詳細情報" 成果物の豊富なセットを抽出します。
センチメント分析:音声と視覚テキストから、ポジティブ、ネガティブ、ニュートラルのセンチメントを識別します。

Azure AI Video Indexer の使用を開始するにはどうすればよいですか?

Azure AI Video Indexer の使用を開始する方法を説明します。

セットアップが完了したら、分析情報の使用を開始し、他の ガイドを確認してください。

コンプライアンス、プライバシー、セキュリティ

Note

2020 年 6 月 11 日に、Microsoft は、人権に基づく厳格な法令が制定されない限り、米国内の警察に顔認識テクノロジを販売しないことを発表しました。そのため、顔認識機能または Face や Video Indexer などの Azure AI サービスに含まれる機能は、お客様が米国内の警察組織である場合や、警察による、あるいは警察のためのそのようなサービスの使用を許可している場合、使用することができません。

注意

責任ある AI の原則をサポートするために、顔識別、カスタマイズ、および著名人認識機能のアクセスは、適格性と使用基準に基づいて制限されています。顔識別、カスタマイズ、および著名人認識機能は、Microsoft が管理するお客様とパートナーのみが利用できます。顔認識受付フォームを使用して利用申請を行ってください。

お客様は、Azure AI Video Indexer を使用する際に適用されるすべての法律を遵守する必要があります。また、Azure AI Video Indexer や Azure サービスを、他のユーザーの権利を侵害する方法や、他のユーザーに有害な可能性がある方法で使用することはできません。

ビデオ/画像を Azure AI Video Indexer にアップロードする前に、法律で要求されている場合、ビデオ/イメージ内の個人 (存在する場合) からの、Azure AI Video Indexer と Azure でのデータの使用、処理、保存に必要なすべての同意を含め、ビデオ/画像を使用するための適切かつ法的な権利をすべて持っている必要があります。一部の法的管轄区域では、生体認証データなどの特定のカテゴリのデータの収集、オンライン処理、および保管に関して特別な法的要件が課せられる場合があります。特別な法的要件に該当するデータの処理と保存に Azure AI Video Indexer と Azure を使用する前に、お客様とその使用目的に適用される可能性のあるすべての法的要件を使用が準拠していることを確認する必要があります。

Azure AI Video Indexer のコンプライアンス、プライバシー、およびセキュリティについて確認するには、Microsoft Trust Center にアクセスしてください。 Microsoft のプライバシー義務、データの取り扱いと保持の慣行 (データの削除方法など) については、Microsoft のプライバシーステートメント、オンラインサービス規約 ("OST")、およびデータ処理の補遺 ("DPA") に関するページをご確認ください。 Azure AI Video Indexer を使用することによって、OST、DPA およびプライバシーに関する声明に従うことに同意したことになります。

次の方法で共有

Azure AI Video Indexer の概要

Azure AI Video Indexer を使用して何ができますか?

ビデオ/オーディオの AI 機能

ビデオモデル

オーディオモデル

オーディオとビデオのモデル (マルチチャンネル)

Azure AI Video Indexer の使用を開始するにはどうすればよいですか?

コンプライアンス、プライバシー、セキュリティ

フィードバック

その他のリソース

次の方法で共有

Azure AI Video Indexer の概要

Azure AI Video Indexer を使用して何ができますか?

ビデオ/オーディオの AI 機能

ビデオ モデル

オーディオ モデル

オーディオとビデオのモデル (マルチチャンネル)

Azure AI Video Indexer の使用を開始するにはどうすればよいですか?

コンプライアンス、プライバシー、セキュリティ

フィードバック

その他のリソース

ビデオモデル

オーディオモデル