Azure Media Services ile video ve ses dosyalarını analiz etme

Media Services logosu v3


Uyarı

Azure Media Services 30 Haziran 2024'de kullanımdan kaldırılacaktır. Daha fazla bilgi için bkz. AMS Kullanımdan Kaldırma Kılavuzu.

Önemli

Microsoft'un Sorumlu Yapay Zeka Standartları belirtildiği gibi, Microsoft yapay zeka sistemleriyle ilgili eşitlik, gizlilik, güvenlik ve saydamlık konusunda kararlıdır. Azure Media Services, 14 Eylül 2023'teVideo Analyzer ön ayarı kullanımdan kaldırıyor. Bu ön ayar şu anda bir video dosyasından birden çok video ve ses içgörüleri ayıklamanıza olanak tanır. Müşteriler, Azure Video Indexertarafından sunulan daha gelişmiş özellik kümesini kullanarak geçerli iş akışlarını değiştirebilir.

Media Services, ses ve video çözümleyicisi ön ayarlarını kullanarak video ve ses dosyalarınızdan içgörü ayıklamanıza olanak tanır. Bu makalede içgörüleri ayıklamak için kullanılan çözümleyici ön ayarları açıklanmaktadır. Videolarınızdan daha ayrıntılı içgörüler elde etmek istiyorsanız Azure Video Indexer hizmetinikullanın. Video Indexer ile Media Services çözümleyicisi ön ayarlarının ne zaman kullanılacağını anlamak içinkarşılaştırma belgesine göz atın.

Ses Çözümleyicisi ön ayarı için temel ve standart iki mod vardır. Aşağıdaki tabloda yer alan farkların açıklamasına bakın.

Media Services v3 ön ayarlarını kullanarak içeriğinizi analiz etmek için bir Dönüştürme oluşturur ve şu ön ayarlardan birini kullanan bir İş gönderirsiniz: VideoAnalyzerPreset veya AudioAnalyzerPreset.

Not

Depolama hesabının genel ağ erişimi yoksa AudioAnalyzerPreset desteklenmez.

Uyumluluk, Gizlilik ve Güvenlik

Video Indexer kullanımınızda geçerli olan tüm yasalara uymanız gerekir ve Video Indexer'ı veya başka bir Azure hizmetini başkalarının haklarını ihlal eden veya başkaları için zararlı olabilecek şekilde kullanamazsınız. Biyometrik veriler dahil olmak üzere herhangi bir videoyu işleme ve depolama için Video Indexer hizmetine yüklemeden önce, videodaki kişilerden gelen tüm uygun izinler de dahil olmak üzere tüm uygun haklara sahip olmanız gerekir. Video Indexer'da uyumluluk, gizlilik ve güvenlik hakkında bilgi edinmek için Azure Bilişsel Hizmetler Koşulları. Microsoft'un gizlilik yükümlülükleri ve verilerinizi işlemesi için Microsoft'un Gizlilik Bildirimi, Çevrimiçi Hizmet Koşulları ("OST") ve Veri İşleme Eki ("DPA") bölümünü gözden geçirin. Veri saklama, silme/yok etme gibi daha fazla gizlilik bilgisi OST'de sağlanır. Video Indexer'ı kullanarak Bilişsel Hizmetler Koşulları, OST, DPA ve Gizlilik Bildirimi'ne bağlı kalmayı kabul etmiş olursunuz.

Yerleşik ön ayarlar

Media Services şu anda aşağıdaki yerleşik çözümleyici ön ayarlarını destekler:

Önayar adı Senaryosu / Mod Ayrıntıları
AudioAnalyzerPreset Ses Standart modunu analiz etme Ön ayar, konuşma transkripsiyonu da dahil olmak üzere önceden tanımlanmış yapay zeka tabanlı analiz işlemleri kümesi uygular. Şu anda ön ayar, tek bir dilde konuşma içeren tek bir ses parçasıyla içerik işlemeyi destekler. 'language tag-region' öğesinin BCP-47 biçimini kullanarak girişteki ses yükünün dilini belirtin. Kullanılabilir dil kodları için aşağıdaki desteklenen diller listesine bakın. Otomatik dil algılama, algılanan ilk dili seçer ve ayarlanmadıysa veya null olarak ayarlanmadıysa dosyanın tamamı için seçili dille devam eder. Otomatik dil algılama özelliği şu anda şunları desteklemektedir: İngilizce, Çince, Fransızca, Almanca, İtalyanca, Japonca, İspanyolca, Rusça ve Brezilya Portekizcesi. İlk dil algılandıktan sonra diller arasında dinamik olarak geçiş yapmak desteklenmez. Otomatik dil algılama özelliği, net bir şekilde ayırt edilebilir konuşma ile ses kayıtlarında en iyi şekilde çalışır. Otomatik dil algılama dili bulamazsa transkripsiyon İngilizceye geri döner.
AudioAnalyzerPreset Ses Temel modunu analiz etme Bu ön ayar modu, konuşmayı metne dönüştürme transkripsiyonu ve VTT alt yazı/resim yazısı dosyası oluşturma işlemlerini gerçekleştirir. Bu modun çıktısı yalnızca anahtar sözcükler, transkripsiyon ve zamanlama bilgilerini içeren bir Insights JSON dosyası içerir. Otomatik dil algılama ve konuşmacı dillendirmesi bu moda dahil değildir. Desteklenen dillerin listesi yukarıdaki Standart modla aynıdır.
VideoAnalyzerPreset Ses ve video analizi Hem ses hem de videodan içgörüleri (zengin meta veriler) ayıklar ve bir JSON biçim dosyası çıkarır. Bir video dosyasını işlerken yalnızca ses içgörülerini ayıklamak isteyip istemediğinizi belirtebilirsiniz.
FaceDetectorPreset Videoda bulunan yüzleri algılama Mevcut tüm yüzleri algılamak için bir videoyu analiz ederken kullanılacak ayarları açıklar.

Not

Depolama hesabının genel ağ erişimi yoksa AudioAnalyzerPreset desteklenmez.

Desteklenen diller

  • Arapça ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' ve 'ar-SY')
  • Brezilya Portekizcesi ('pt-BR')
  • Çince ('zh-CN')
  • Danca('da-DK')
  • İngilizce ('en-US', 'en-GB' ve 'en-AU')
  • Fince ('fi-FI')
  • Fransızca ('fr-FR' ve 'fr-CA')
  • Almanca ('de-DE')
  • İbranice (he-IL)
  • Hintçe ('hi-IN'), Korece ('ko-KR')
  • İtalyanca ('it-IT')
  • Japonca ('ja-JP')
  • Norveç dili ('nb-NO')
  • Farsça ('fa-IR')
  • Portekiz Portekizcesi ('pt-PT')
  • Rusça ('ru-RU')
  • İspanyolca ('es-ES' ve 'es-MX')
  • İsveççe ('sv-SE')
  • Tay dili ('th-TH')
  • Türkçe ('tr-TR')

Not

Depolama hesabının genel ağ erişimi yoksa AudioAnalyzerPreset desteklenmez.

AudioAnalyzerPreset standart modu

Ön ayar, bir ses veya video dosyasından birden çok ses içgörüleri ayıklamanızı sağlar.

Çıkış, ses transkripti için bir JSON dosyası (tüm içgörülerle birlikte) ve VTT dosyası içerir. Bu ön ayar, giriş dosyasının dilini bir BCP47 dizesi biçiminde belirten bir özelliği kabul eder. Ses içgörüleri şunları içerir:

  • Ses transkripsiyonu: Zaman damgaları içeren konuşulan sözcüklerin transkripti. Birden çok dil desteklenir.
  • Anahtar Sözcükler: Ses transkripsiyonundan ayıklanan anahtar sözcükler.

AudioAnalyzerPreset temel modu

Ön ayar, bir ses veya video dosyasından birden çok ses içgörüleri ayıklamanızı sağlar.

Çıkış, ses transkripti için bir JSON dosyası ve VTT dosyası içerir. Bu ön ayar, giriş dosyasının dilini bir BCP47 dizesi biçiminde belirten bir özelliği kabul eder. Çıktı şunları içerir:

  • Ses transkripsiyonu: Zaman damgaları içeren konuşulan sözcüklerin transkripti. Birden çok dil desteklenir, ancak otomatik dil algılama ve konuşmacıyı ayrıştırma dahil değildir.
  • Anahtar Sözcükler: Ses transkripsiyonundan ayıklanan anahtar sözcükler.

VideoAnalyzerPreset

Ön ayar, bir video dosyasından birden çok ses ve video içgörüleri ayıklamanızı sağlar. Çıktıda bir JSON dosyası (tüm içgörülerle birlikte), video transkripti için bir VTT dosyası ve küçük resim koleksiyonu bulunur. Bu ön ayar ayrıca bir BCP47 dizesini (videonun dilini temsil eder) özellik olarak kabul eder. Video içgörüleri, yukarıda belirtilen tüm ses içgörülerini ve aşağıdaki ek öğeleri içerir:

  • Yüz izleme: Videoda yüzlerin bulunduğu süre. Her yüzün bir yüz kimliği ve buna karşılık gelen küçük resim koleksiyonu vardır.
  • Görsel metin: Optik karakter tanıma yoluyla algılanan metin. Metin zaman damgalıdır ve anahtar sözcükleri ayıklamak için de kullanılır (ses transkriptine ek olarak).
  • Ana Kareler: Videodan ayıklanan anahtar kareler koleksiyonu.
  • Görsel içerik denetimi: Videoların yetişkinlere uygun veya doğası gereği müstehcen olarak işaretlenir.
  • Ek Açıklama: Önceden tanımlanmış bir nesne modeline göre videolara açıklama eklemenin sonucu

öğeleri insights.json

Çıktı, videoda veya seste bulunan tüm içgörüleri içeren bir JSON dosyası (insights.json) içerir. JSON aşağıdaki öğeleri içerebilir:

Transkript

Ad Açıklama
Kimliği Satır kimliği.
Metin Transkripti kendisi.
Dil Transkript dili. Her satırın farklı bir dile sahip olabileceği transkripti desteklemek için tasarlanmıştır.
Örnek Bu satırın göründüğü zaman aralıklarının listesi. Örnek transkript ise yalnızca bir örneği olur.

Örnek:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

optik karakter tanıma

Ad Açıklama
Kimliği OCR satır kimliği.
Metin OCR metni.
güven Tanıma güveni.
Dil OCR dili.
Örnek Bu OCR'nin göründüğü zaman aralıklarının listesi (aynı OCR birden çok kez görünebilir).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Yüz

Ad Açıklama
Kimliği Yüz kimliği.
ad Yüz adı. 'Bilinmeyen #0', tanımlanmış bir ünlü veya müşteri tarafından eğitilmiş bir kişi olabilir.
güven Yüz belirleme güveni.
Açıklama Ünlünün açıklaması.
thumbnailId Bu yüzün küçük resminin kimliği.
knownPersonId İç kimlik (bilinen bir kişiyse).
referenceId Bing Kimliği (Bing ünlüsüyse).
referenceType Şu anda yalnızca Bing.
başlık Başlık (ünlüyse ,örneğin, "Microsoft'un CEO'su").
imageUrl Ünlüyse resim URL'si.
Örnek Verilen zaman aralığında yüzün göründüğü örnekler. Her örneğin bir thumbnailsId değeri de vardır.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Çekim

Ad Açıklama
Kimliği Şut kimliği.
keyFrames Çekimdeki anahtar çerçevelerin listesi (her birinin bir kimliği ve örnek zaman aralıkları listesi vardır). Anahtar çerçeve örnekleri, keyFrame'in küçük resim kimliğini içeren bir thumbnailId alanına sahiptir.
Örnek Bu çekimin zaman aralıklarının listesi (çekimlerin yalnızca bir örneği vardır).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

istatistik

Ad Açıklama
CorrespondenceCount Videodaki yazışmaların sayısı.
WordCount Konuşmacı başına sözcük sayısı.
SpeakerNumberOfFragments Konuşmacının videodaki parça miktarı.
KonuşmacıLongestMonolog Konuşmacının en uzun monologu. Hoparlör monologun içinde sessizliğe sahipse buna dahildir. Monologun başındaki ve sonundaki sessizlik kaldırılır.
SpeakerTalkToListenRatio Hesaplama, konuşmacının monologunda harcanan süreyi (aradaki sessizlik olmadan) videonun toplam süresine bölünerek temel alır. Zaman üçüncü ondalık ayırıcıya yuvarlandı.

Etiket

Ad Açıklama
Kimliği Etiket kimliği.
ad Etiket adı (örneğin, 'Bilgisayar', 'TV').
Dil Etiket adı dili (çevrildiğinde). BCP-47
Örnek Bu etiketin göründüğü zaman aralıklarının listesi (bir etiket birden çok kez görünebilir). Her örneğin bir güvenilirlik alanı vardır.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Anahtar kelime -ler

Ad Açıklama
Kimliği Anahtar sözcük kimliği.
Metin Anahtar sözcük metni.
güven Anahtar sözcüğün tanıma güveni.
Dil Anahtar sözcük dili (çevrildiğinde).
Örnek Bu anahtar sözcüğün göründüğü zaman aralıklarının listesi (bir anahtar sözcük birden çok kez görünebilir).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

visualContentModeration bloğu, Video Indexer'ın yetişkinlere yönelik içeriğe sahip olabileceğini bulduğu zaman aralıklarını içerir. visualContentModeration boşsa, tanımlanan yetişkin içeriği yoktur.

Yetişkinlere yönelik veya müstehcen içerik içerdiği bulunan videolar yalnızca özel görünümde kullanılabilir. Kullanıcılar, içeriğin insan tarafından gözden geçirilmesi için bir istek gönderebilir ve bu durumda IsAdult özniteliği insan incelemesinin sonucunu içerir.

Ad Açıklama
Kimliği Görsel içerik denetleme kimliği.
adultScore Yetişkin puanı (content moderator'dan).
racyScore Müstehcen puan (içerik denetiminden).
Örnek Bu görsel içerik moderasyonun göründüğü zaman aralıklarının listesi.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Yardım ve destek alma

Sorularınız için Media Services ile iletişime geçebilir veya aşağıdaki yöntemlerden birini kullanarak güncelleştirmelerimizi izleyebilirsiniz: