Azure Media Services ile video ve ses dosyalarını analiz etme
Uyarı
Azure Media Services 30 Haziran 2024'de kullanımdan kaldırılacaktır. Daha fazla bilgi için bkz. AMS Kullanımdan Kaldırma Kılavuzu.
Önemli
Microsoft'un Sorumlu Yapay Zeka Standartları belirtildiği gibi, Microsoft yapay zeka sistemleriyle ilgili eşitlik, gizlilik, güvenlik ve saydamlık konusunda kararlıdır. Azure Media Services, 14 Eylül 2023'teVideo Analyzer ön ayarı kullanımdan kaldırıyor. Bu ön ayar şu anda bir video dosyasından birden çok video ve ses içgörüleri ayıklamanıza olanak tanır. Müşteriler, Azure Video Indexertarafından sunulan daha gelişmiş özellik kümesini kullanarak geçerli iş akışlarını değiştirebilir.
Media Services, ses ve video çözümleyicisi ön ayarlarını kullanarak video ve ses dosyalarınızdan içgörü ayıklamanıza olanak tanır. Bu makalede içgörüleri ayıklamak için kullanılan çözümleyici ön ayarları açıklanmaktadır. Videolarınızdan daha ayrıntılı içgörüler elde etmek istiyorsanız Azure Video Indexer hizmetinikullanın. Video Indexer ile Media Services çözümleyicisi ön ayarlarının ne zaman kullanılacağını anlamak için
Ses Çözümleyicisi ön ayarı için temel ve standart iki mod vardır. Aşağıdaki tabloda yer alan farkların açıklamasına bakın.
Media Services v3 ön ayarlarını kullanarak içeriğinizi analiz etmek için bir Dönüştürme oluşturur ve şu ön ayarlardan birini kullanan bir İş gönderirsiniz: VideoAnalyzerPreset veya AudioAnalyzerPreset.
Not
Depolama hesabının genel ağ erişimi yoksa AudioAnalyzerPreset desteklenmez.
Uyumluluk, Gizlilik ve Güvenlik
Video Indexer kullanımınızda geçerli olan tüm yasalara uymanız gerekir ve Video Indexer'ı veya başka bir Azure hizmetini başkalarının haklarını ihlal eden veya başkaları için zararlı olabilecek şekilde kullanamazsınız. Biyometrik veriler dahil olmak üzere herhangi bir videoyu işleme ve depolama için Video Indexer hizmetine yüklemeden önce, videodaki kişilerden gelen tüm uygun izinler de dahil olmak üzere tüm uygun haklara sahip olmanız gerekir. Video Indexer'da uyumluluk, gizlilik ve güvenlik hakkında bilgi edinmek için Azure Bilişsel Hizmetler Koşulları. Microsoft'un gizlilik yükümlülükleri ve verilerinizi işlemesi için Microsoft'un Gizlilik Bildirimi, Çevrimiçi Hizmet Koşulları ("OST") ve Veri İşleme Eki ("DPA") bölümünü gözden geçirin. Veri saklama, silme/yok etme gibi daha fazla gizlilik bilgisi OST'de sağlanır. Video Indexer'ı kullanarak Bilişsel Hizmetler Koşulları, OST, DPA ve Gizlilik Bildirimi'ne bağlı kalmayı kabul etmiş olursunuz.
Yerleşik ön ayarlar
Media Services şu anda aşağıdaki yerleşik çözümleyici ön ayarlarını destekler:
Önayar adı | Senaryosu / Mod | Ayrıntıları |
---|---|---|
AudioAnalyzerPreset | Ses Standart modunu analiz etme | Ön ayar, konuşma transkripsiyonu da dahil olmak üzere önceden tanımlanmış yapay zeka tabanlı analiz işlemleri kümesi uygular. Şu anda ön ayar, tek bir dilde konuşma içeren tek bir ses parçasıyla içerik işlemeyi destekler. 'language tag-region' öğesinin BCP-47 biçimini kullanarak girişteki ses yükünün dilini belirtin. Kullanılabilir dil kodları için aşağıdaki desteklenen diller listesine bakın. Otomatik dil algılama, algılanan ilk dili seçer ve ayarlanmadıysa veya null olarak ayarlanmadıysa dosyanın tamamı için seçili dille devam eder. Otomatik dil algılama özelliği şu anda şunları desteklemektedir: İngilizce, Çince, Fransızca, Almanca, İtalyanca, Japonca, İspanyolca, Rusça ve Brezilya Portekizcesi. İlk dil algılandıktan sonra diller arasında dinamik olarak geçiş yapmak desteklenmez. Otomatik dil algılama özelliği, net bir şekilde ayırt edilebilir konuşma ile ses kayıtlarında en iyi şekilde çalışır. Otomatik dil algılama dili bulamazsa transkripsiyon İngilizceye geri döner. |
AudioAnalyzerPreset | Ses Temel modunu analiz etme | Bu ön ayar modu, konuşmayı metne dönüştürme transkripsiyonu ve VTT alt yazı/resim yazısı dosyası oluşturma işlemlerini gerçekleştirir. Bu modun çıktısı yalnızca anahtar sözcükler, transkripsiyon ve zamanlama bilgilerini içeren bir Insights JSON dosyası içerir. Otomatik dil algılama ve konuşmacı dillendirmesi bu moda dahil değildir. Desteklenen dillerin listesi yukarıdaki Standart modla aynıdır. |
VideoAnalyzerPreset | Ses ve video analizi | Hem ses hem de videodan içgörüleri (zengin meta veriler) ayıklar ve bir JSON biçim dosyası çıkarır. Bir video dosyasını işlerken yalnızca ses içgörülerini ayıklamak isteyip istemediğinizi belirtebilirsiniz. |
FaceDetectorPreset | Videoda bulunan yüzleri algılama | Mevcut tüm yüzleri algılamak için bir videoyu analiz ederken kullanılacak ayarları açıklar. |
Not
Depolama hesabının genel ağ erişimi yoksa AudioAnalyzerPreset desteklenmez.
Desteklenen diller
- Arapça ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' ve 'ar-SY')
- Brezilya Portekizcesi ('pt-BR')
- Çince ('zh-CN')
- Danca('da-DK')
- İngilizce ('en-US', 'en-GB' ve 'en-AU')
- Fince ('fi-FI')
- Fransızca ('fr-FR' ve 'fr-CA')
- Almanca ('de-DE')
- İbranice (he-IL)
- Hintçe ('hi-IN'), Korece ('ko-KR')
- İtalyanca ('it-IT')
- Japonca ('ja-JP')
- Norveç dili ('nb-NO')
- Farsça ('fa-IR')
- Portekiz Portekizcesi ('pt-PT')
- Rusça ('ru-RU')
- İspanyolca ('es-ES' ve 'es-MX')
- İsveççe ('sv-SE')
- Tay dili ('th-TH')
- Türkçe ('tr-TR')
Not
Depolama hesabının genel ağ erişimi yoksa AudioAnalyzerPreset desteklenmez.
AudioAnalyzerPreset standart modu
Ön ayar, bir ses veya video dosyasından birden çok ses içgörüleri ayıklamanızı sağlar.
Çıkış, ses transkripti için bir JSON dosyası (tüm içgörülerle birlikte) ve VTT dosyası içerir. Bu ön ayar, giriş dosyasının dilini bir BCP47 dizesi biçiminde belirten bir özelliği kabul eder. Ses içgörüleri şunları içerir:
- Ses transkripsiyonu: Zaman damgaları içeren konuşulan sözcüklerin transkripti. Birden çok dil desteklenir.
- Anahtar Sözcükler: Ses transkripsiyonundan ayıklanan anahtar sözcükler.
AudioAnalyzerPreset temel modu
Ön ayar, bir ses veya video dosyasından birden çok ses içgörüleri ayıklamanızı sağlar.
Çıkış, ses transkripti için bir JSON dosyası ve VTT dosyası içerir. Bu ön ayar, giriş dosyasının dilini bir BCP47 dizesi biçiminde belirten bir özelliği kabul eder. Çıktı şunları içerir:
- Ses transkripsiyonu: Zaman damgaları içeren konuşulan sözcüklerin transkripti. Birden çok dil desteklenir, ancak otomatik dil algılama ve konuşmacıyı ayrıştırma dahil değildir.
- Anahtar Sözcükler: Ses transkripsiyonundan ayıklanan anahtar sözcükler.
VideoAnalyzerPreset
Ön ayar, bir video dosyasından birden çok ses ve video içgörüleri ayıklamanızı sağlar. Çıktıda bir JSON dosyası (tüm içgörülerle birlikte), video transkripti için bir VTT dosyası ve küçük resim koleksiyonu bulunur. Bu ön ayar ayrıca bir BCP47 dizesini (videonun dilini temsil eder) özellik olarak kabul eder. Video içgörüleri, yukarıda belirtilen tüm ses içgörülerini ve aşağıdaki ek öğeleri içerir:
- Yüz izleme: Videoda yüzlerin bulunduğu süre. Her yüzün bir yüz kimliği ve buna karşılık gelen küçük resim koleksiyonu vardır.
- Görsel metin: Optik karakter tanıma yoluyla algılanan metin. Metin zaman damgalıdır ve anahtar sözcükleri ayıklamak için de kullanılır (ses transkriptine ek olarak).
- Ana Kareler: Videodan ayıklanan anahtar kareler koleksiyonu.
- Görsel içerik denetimi: Videoların yetişkinlere uygun veya doğası gereği müstehcen olarak işaretlenir.
- Ek Açıklama: Önceden tanımlanmış bir nesne modeline göre videolara açıklama eklemenin sonucu
öğeleri insights.json
Çıktı, videoda veya seste bulunan tüm içgörüleri içeren bir JSON dosyası (insights.json) içerir. JSON aşağıdaki öğeleri içerebilir:
Transkript
Ad | Açıklama |
---|---|
Kimliği | Satır kimliği. |
Metin | Transkripti kendisi. |
Dil | Transkript dili. Her satırın farklı bir dile sahip olabileceği transkripti desteklemek için tasarlanmıştır. |
Örnek | Bu satırın göründüğü zaman aralıklarının listesi. Örnek transkript ise yalnızca bir örneği olur. |
Örnek:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
optik karakter tanıma
Ad | Açıklama |
---|---|
Kimliği | OCR satır kimliği. |
Metin | OCR metni. |
güven | Tanıma güveni. |
Dil | OCR dili. |
Örnek | Bu OCR'nin göründüğü zaman aralıklarının listesi (aynı OCR birden çok kez görünebilir). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
Yüz
Ad | Açıklama |
---|---|
Kimliği | Yüz kimliği. |
ad | Yüz adı. 'Bilinmeyen #0', tanımlanmış bir ünlü veya müşteri tarafından eğitilmiş bir kişi olabilir. |
güven | Yüz belirleme güveni. |
Açıklama | Ünlünün açıklaması. |
thumbnailId | Bu yüzün küçük resminin kimliği. |
knownPersonId | İç kimlik (bilinen bir kişiyse). |
referenceId | Bing Kimliği (Bing ünlüsüyse). |
referenceType | Şu anda yalnızca Bing. |
başlık | Başlık (ünlüyse ,örneğin, "Microsoft'un CEO'su"). |
imageUrl | Ünlüyse resim URL'si. |
Örnek | Verilen zaman aralığında yüzün göründüğü örnekler. Her örneğin bir thumbnailsId değeri de vardır. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
Çekim
Ad | Açıklama |
---|---|
Kimliği | Şut kimliği. |
keyFrames | Çekimdeki anahtar çerçevelerin listesi (her birinin bir kimliği ve örnek zaman aralıkları listesi vardır). Anahtar çerçeve örnekleri, keyFrame'in küçük resim kimliğini içeren bir thumbnailId alanına sahiptir. |
Örnek | Bu çekimin zaman aralıklarının listesi (çekimlerin yalnızca bir örneği vardır). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
istatistik
Ad | Açıklama |
---|---|
CorrespondenceCount | Videodaki yazışmaların sayısı. |
WordCount | Konuşmacı başına sözcük sayısı. |
SpeakerNumberOfFragments | Konuşmacının videodaki parça miktarı. |
KonuşmacıLongestMonolog | Konuşmacının en uzun monologu. Hoparlör monologun içinde sessizliğe sahipse buna dahildir. Monologun başındaki ve sonundaki sessizlik kaldırılır. |
SpeakerTalkToListenRatio | Hesaplama, konuşmacının monologunda harcanan süreyi (aradaki sessizlik olmadan) videonun toplam süresine bölünerek temel alır. Zaman üçüncü ondalık ayırıcıya yuvarlandı. |
Etiket
Ad | Açıklama |
---|---|
Kimliği | Etiket kimliği. |
ad | Etiket adı (örneğin, 'Bilgisayar', 'TV'). |
Dil | Etiket adı dili (çevrildiğinde). BCP-47 |
Örnek | Bu etiketin göründüğü zaman aralıklarının listesi (bir etiket birden çok kez görünebilir). Her örneğin bir güvenilirlik alanı vardır. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
Anahtar kelime -ler
Ad | Açıklama |
---|---|
Kimliği | Anahtar sözcük kimliği. |
Metin | Anahtar sözcük metni. |
güven | Anahtar sözcüğün tanıma güveni. |
Dil | Anahtar sözcük dili (çevrildiğinde). |
Örnek | Bu anahtar sözcüğün göründüğü zaman aralıklarının listesi (bir anahtar sözcük birden çok kez görünebilir). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
visualContentModeration bloğu, Video Indexer'ın yetişkinlere yönelik içeriğe sahip olabileceğini bulduğu zaman aralıklarını içerir. visualContentModeration boşsa, tanımlanan yetişkin içeriği yoktur.
Yetişkinlere yönelik veya müstehcen içerik içerdiği bulunan videolar yalnızca özel görünümde kullanılabilir. Kullanıcılar, içeriğin insan tarafından gözden geçirilmesi için bir istek gönderebilir ve bu durumda IsAdult
özniteliği insan incelemesinin sonucunu içerir.
Ad | Açıklama |
---|---|
Kimliği | Görsel içerik denetleme kimliği. |
adultScore | Yetişkin puanı (content moderator'dan). |
racyScore | Müstehcen puan (içerik denetiminden). |
Örnek | Bu görsel içerik moderasyonun göründüğü zaman aralıklarının listesi. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Yardım ve destek alma
Sorularınız için Media Services ile iletişime geçebilir veya aşağıdaki yöntemlerden birini kullanarak güncelleştirmelerimizi izleyebilirsiniz:
- Q & A
-
Stack Overflow. soruları
azure-media-services
ile etiketleyin. - Destek istemek için @AzureSupport@MSFTAzureMedia veya kullanın.
- Azure portalı üzerinden bir destek bileti açın.