Belge Yönetim Bilgileri özel sınıflandırma modeli
Önemli
- Document Intelligence genel önizleme sürümleri, etkin geliştirme aşamasında olan özelliklere erken erişim sağlar. Genel Kullanılabilirlik (GA) öncesinde kullanıcı geri bildirimlerine göre özellikler, yaklaşımlar ve süreçler değişebilir.
- Belge Zekası istemci kitaplıklarının genel önizleme sürümü varsayılan olarak REST API sürüm 2024-07-31-preview'dır.
- Genel önizleme sürümü 2024-07-31-preview şu anda yalnızca aşağıdaki Azure bölgelerinde kullanılabilir. AI Studio'daki özel oluşturucu (belge alanı ayıklama) modelinin yalnızca Orta Kuzey ABD bölgesinde kullanılabildiğini unutmayın:
- Doğu ABD
- Batı ABD2
- Batı Avrupa
- Orta Kuzey ABD
Bu içerik şunlar için geçerlidir: v4.0 (önizleme) | Önceki sürüm: v3.1 (GA)
Bu içerik şunlar için geçerlidir: v3.1 (GA) | En son sürüm: v4.0 (önizleme)
Önemli
2024-07-31-preview
API, özel sınıflandırma modeli, analiz işlemi sırasında belgeleri varsayılan olarak bölmez.- Önceki sürümlerden davranışı korumak için özelliğini açıkça otomatik olarak ayarlamanız
splitMode
gerekir. içinsplitMode
varsayılan değeridirnone
. - Giriş dosyanız birden çok belge içeriyorsa, öğesini olarak ayarlayarak bölmeyi
splitMode
auto
etkinleştirmeniz gerekir.
Azure AI Document Intelligence, akıllı belge işleme çözümleri oluşturmanıza olanak tanıyan bulut tabanlı bir Azure AI hizmetidir. Belge Yönetim Bilgileri API'leri çeşitli içeriği, düzeni, stili ve anlamsal öğeleri ayıklamak ve algılamak için görüntüleri, PDF'leri ve diğer belge dosyalarını analiz edin.
Özel sınıflandırma modelleri, uygulamanızda işlediğiniz belgeleri doğru bir şekilde algılamak ve tanımlamak için düzen ve dil özelliklerini birleştiren derin öğrenme modeli türleridir. Özel sınıflandırma modelleri, bir giriş dosyasının sınıflandırmasını, içindeki belgeleri tanımlamak için tek seferde bir sayfa yapar ve ayrıca bir giriş dosyasındaki tek bir belgenin birden çok örneğini veya birden çok belgeyi tanımlayabilir.
Model özellikleri
Not
- API'den
2024-02-29-preview
başlayarak özel clasification modelleri artımlı eğitimi destekler. Mevcut sınıflara yeni örnekler ekleyebilir veya var olan bir sınıflandırıcıya başvurarak yeni sınıflar ekleyebilirsiniz.
Özel sınıflandırma modelleri, eğitilen belge türlerinden herhangi birinin bir giriş dosyasında yer alan olup olmadığını belirlemek için tek veya çok dosyalı belgeleri analiz edebilir. Şu anda desteklenen senaryolar şunlardır:
Kredi başvuru formu gibi tek bir belge türü içeren tek bir dosya.
Birden çok belge türü içeren tek bir dosya. Örneğin, kredi başvuru formu, ödeme ve banka ekstresi içeren bir kredi uygulama paketi.
Aynı belgenin birden çok örneğini içeren tek bir dosya. Örneğin, taranan faturaların koleksiyonu.
✔️ Özel bir sınıflandırıcının eğitimi için en az two
ayrı sınıflar ve sınıf başına en az five
belge örneği gerekir. Model yanıtı, tanımlanan belge sınıflarının her biri için sayfa aralıklarını içerir.
✔️ İzin verilen en fazla sınıf sayısıdır 500
. Sınıf başına izin verilen en fazla belge örneği sayısıdır 100
.
Model, belirtilmediği sürece giriş belgesinin her sayfasını etiketlenmiş veri kümesindeki sınıflardan birine sınıflandırır. Giriş belgesinde analiz etmek için sayfa numaralarını da belirtebilirsiniz. Uygulamanızın eşiğini ayarlamak için yanıttan güvenilirlik puanını kullanın.
Artımlı eğitim
Özel modellerle, sınıflandırıcınızı mevcut bir sınıf için yeni örneklerle güncelleştirmek veya yeni sınıflar eklemek için eğitim veri kümesine erişimi korumanız gerekir. Sınıflandırıcı modelleri artık mevcut bir sınıflandırıcıya başvurabileceğiniz ve mevcut bir sınıf için yeni örnekler ekleyebileceğiniz veya örneklerle yeni sınıflar ekleyebileceğiniz artımlı eğitimi destekliyor. Artımlı eğitim, veri saklamanın zor olduğu ve sınıflandırıcının değişen iş gereksinimleriyle uyumlu olacak şekilde güncelleştirilmesi gereken senaryolara olanak tanır. Artımlı eğitim, API sürümü ve sonraki sürümlerle 2024-02-29-preview
eğitilen modellerde desteklenir.
Önemli
Artımlı eğitim yalnızca aynı API sürümüyle eğitilen modellerde desteklenir. Modeli genişletmeye çalışıyorsanız, modeli genişletmek için özgün modelin eğitildiği API sürümünü kullanın. Artımlı eğitim yalnızca API sürüm 2024-07-31-preview veya sonraki sürümlerde desteklenir.
Artımlı eğitim için özgün model kimliğini olarak baseClassifierId
sağlamanız gerekir. Artımlı eğitimi kullanma hakkında daha fazla bilgi edinmek için bkz. artımlı eğitim.
Office belge türü desteği
Artık sınıflandırıcıları PDF, resimler, Word, PowerPoint ve Excel gibi çeşitli biçimlerde belge türlerini tanıyacak şekilde eğitebilirsiniz. Eğitim veri kümenizi derlerken desteklenen türlerden herhangi birinin belgelerini ekleyebilirsiniz. Sınıflandırıcı, belirli türleri açıkça etiketlemenizi gerektirmez. En iyi uygulama olarak, modelin genel doğruluğunu geliştirmek için eğitim veri kümenizde her biçimin en az bir örneğine sahip olduğundan emin olun.
Özel sınıflandırma ve oluşturulan modelleri karşılaştırma
Özel sınıflandırma modeli bazı senaryolarda oluşturulan modelin yerini alabilir, ancak dikkat edilmesi gereken birkaç fark vardır:
Özellik | Özel sınıflandırıcı işlemi | Oluşturulan model işlemi |
---|---|---|
Ayıklama modeli işleme için eğitilen türlerden birine ait bilinmeyen türde tek bir belgeyi analiz edin. | ● Birden çok arama gerektirir. ● Belge sınıfına göre sınıflandırma modelini çağırın. Bu adım, ayıklama modeli analizini çağırmadan önce güvenilirlik tabanlı bir denetime olanak tanır. ● Ayıklama modelini çağırın. |
● Giriş belgesi türüne karşılık gelen modeli içeren bir oluşturulmuş modele tek bir çağrı gerektirir. |
Ayıklama modeli işleme için eğitilen çeşitli türlere ait bilinmeyen türde tek bir belgeyi analiz edin. | ●Birden çok arama gerektirir. ● Ayıklama için belirlenen bir türle eşleşmeyen belgeleri yoksayan sınıflandırıcıya bir çağrı yapın. ● Ayıklama modelini çağırın. |
● Oluşturulan bir modele tek bir çağrı gerektirir. Hizmet, oluşturulan model içinde en yüksek eşleşmeye sahip özel bir model seçer. ● Oluşturulan bir model belgeleri yoksayamaz. |
Ayıklama modeli işleme için eğitilen türlerden birine ait, bilinen veya bilinmeyen türde birden çok belge içeren bir dosyayı analiz edin. | ● Birden çok arama gerektirir. ● Giriş dosyasında tanımlanan her belge için ayıklama modelini çağırın. ● Ayıklama modelini çağırın. |
● Oluşturulan bir modele tek bir çağrı gerektirir. ● Oluşturulan model, belgenin ilk örneğinde bileşen modelini bir kez çağırır. ●Kalan belgeler yoksayılır. |
Dil desteği
Sınıflandırma modelleri şu anda yalnızca İngilizce belgeleri desteklemektedir.
Sınıflandırma modelleri artık farklı dillerdeki belgeler üzerinde eğitilebilir. Tam liste için desteklenen dillere bakın.
Giriş gereksinimleri
Desteklenen dosya biçimleri:
Model | Görüntü:jpeg/jpg , png , bmp , tiff , , heif |
Microsoft Office: Word (docx), Excel (xlxs), PowerPoint (pptx) |
|
---|---|---|---|
Okundu | ✔ | ✔ | ✔ |
Düzen | ✔ | ✔ | ✔ (2024-02-29-preview, 2023-10-31-preview ve üzeri) |
Genel Belge | ✔ | ✔ | |
Önceden oluşturulmuş | ✔ | ✔ | |
Özel ayıklama | ✔ | ✔ | |
Özel sınıflandırma | ✔ | ✔ | ✔ |
En iyi sonuçlar için belge türü başına beş net fotoğraf veya yüksek kaliteli tarama sağlayın.
PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).
Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve ücretsiz (F0) katmanı için 4 MB'tır.
Görüntü boyutları 50 x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.
PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.
Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, inç başına 150 nokta (
DPI
) olan yaklaşık8
-point metnine karşılık gelir.Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.
Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve sinir modeli için 1G-MB'tır.
Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile 1 GB'tır.
Belge bölme
Bir dosyada birden fazla belgeniz olduğunda, sınıflandırıcı giriş dosyasında bulunan farklı belge türlerini tanımlayabilir. Sınıflandırıcı yanıtı, bir dosyanın içinde yer alan tanımlanan belge türlerinin her biri için sayfa aralıklarını içerir. Bu yanıt, aynı belge türünün birden çok örneğini içerebilir.
İşlem analyze
artık bölme davranışı üzerinde ayrıntılı denetim sağlayan bir splitMode
özellik içerir.
- Giriş dosyasının tamamını sınıflandırma için tek bir belge olarak işlemek için splitMode değerini olarak
none
ayarlayın. Bunu yaptığınızda, hizmet giriş dosyasının tamamı için yalnızca bir sınıf döndürür. - Giriş dosyasının her sayfasını sınıflandırmak için splitMode değerini olarak
perPage
ayarlayın. Hizmet, her sayfayı tek bir belge olarak sınıflandırmaya çalışır. - splitMode
auto
değerini olarak ayarlayın; hizmet belgeleri ve ilişkili sayfa aralıklarını tanımlar.
En iyi yöntemler
Özel sınıflandırma modelleri eğitmek için sınıf başına en az beş örnek gerektirir. Sınıflar benzerse, ek eğitim örnekleri eklemek model doğruluğunu artırır.
Sınıflandırıcı her belgeyi sınıflardan birine atamayı dener. Modelin eğitim veri kümesinin parçası olan sınıflarda bulunmayan belge türlerini görmesini bekliyorsanız, sınıflandırma puanında bir eşik ayarlamayı veya bir sınıfa "other"
belge türlerinin birkaç temsili örneğini eklemeyi planlamanız gerekir. "other"
Sınıf eklemek, gerekli olmayan belgelerin sınıflandırıcı kalitenizi etkilememesini sağlar.
Model eğitma
Özel sınıflandırma modelleri v4.0: 2024-02-29-preview, 2024-07-31-preview ve v3.1: 2023-07-31 (GA) API'leri tarafından desteklenir. Document Intelligence Studio , özel sınıflandırıcıyı etkileşimli olarak eğitmek için kod içermeyen bir kullanıcı arabirimi sağlar. Başlamak için nasıl yapılır kılavuzunu izleyin.
REST API kullanırken, belgelerinizi klasörlere göre düzenlerseniz, sınıflandırma modelini eğitmek için isteğin özelliğini kullanabilirsiniz azureBlobSource
.
https://{endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview
{
"classifierId": "demo2.1",
"description": "",
"docTypes": {
"car-maint": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "sample1/car-maint/"
}
},
"cc-auth": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "sample1/cc-auth/"
}
},
"deed-of-trust": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "sample1/deed-of-trust/"
}
}
}
}
https://{endpoint}/formrecognizer/documentClassifiers:build?api-version=2023-07-31
{
"classifierId": "demo2.1",
"description": "",
"docTypes": {
"car-maint": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "{path to dataset root}/car-maint/"
}
},
"cc-auth": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "{path to dataset root}/cc-auth/"
}
},
"deed-of-trust": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "{path to dataset root}/deed-of-trust/"
}
}
}
}
Alternatif olarak, düz bir dosya listeniz varsa veya modeli eğitmek için her klasörde yalnızca birkaç seçme dosyası kullanmayı planlıyorsanız, modeli eğitmek için özelliğini kullanabilirsiniz azureBlobFileListSource
. Bu adım için JSON Çizgileri biçiminde bir file list
gerekir. Her sınıf için, eğitim için gönderilecek dosyaların listesini içeren yeni bir dosya ekleyin.
{
"classifierId": "demo2",
"description": "",
"docTypes": {
"car-maint": {
"azureBlobFileListSource": {
"containerUrl": "SAS URL to container",
"fileList": "{path to dataset root}/car-maint.jsonl"
}
},
"cc-auth": {
"azureBlobFileListSource": {
"containerUrl": "SAS URL to container",
"fileList": "{path to dataset root}/cc-auth.jsonl"
}
},
"deed-of-trust": {
"azureBlobFileListSource": {
"containerUrl": "SAS URL to container",
"fileList": "{path to dataset root}/deed-of-trust.jsonl"
}
}
}
}
Örnek olarak, dosya listesi car-maint.jsonl
aşağıdaki dosyaları içerir.
{"file":"classifier/car-maint/Commercial Motor Vehicle - Adatum.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Fincher.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Lamna.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Liberty.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Trey.pdf"}
Modelin üzerine yazma
Not
API'den 2024-07-31-preview
başlayarak, özel sınıflandırma modelleri bir modelin yerinde üzerine yazmayı destekler.
Artık özel sınıflandırmayı yerinde güncelleştirebilirsiniz. Modelin üzerine doğrudan yazmak, mevcut modeli değiştirmeyi seçmeden önce model kalitesini karşılaştırma olanağınızı kaybedersiniz. Özellik istek gövdesinde açıkça belirtildiğinde model üzerine yazmaya izin verilir allowOverwrite
. Bu eylem gerçekleştirildikten sonra üzerine yazılan özgün modeli kurtarmak mümkün değildir.
{
"classifierId": "existingClassifierName",
"allowOverwrite": true, // Default=false
...
}
Modeli kopyalama
Not
API'den 2024-07-31-preview
başlayarak, özel sınıflandırma modelleri modelin aşağıdaki bölgelerden herhangi birine kopyalanmasını destekler:
- Doğu ABD
- Batı ABD2
- Batı Avrupa
Modeli başka bir bölgeye kopyalamak için REST API'yi veya Document Intelligence Studio'yu kullanın.
Kopyalama yetkilendirme isteği oluşturma
Aşağıdaki HTTP isteği, hedef kaynağınızdan kopyalama yetkilendirmesini alır. Hedef kaynağınızın uç noktasını ve anahtarını üst bilgi olarak girmeniz gerekir.
POST https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers:authorizeCopy?api-version=2024-07-31-preview
Ocp-Apim-Subscription-Key: {<your-key>}
Request body
{
"classifierId": "targetClassifier",
"description": "Target classifier description"
}
Kopyayı başlatmak için gereken JSON yükünü içeren yanıt gövdesine sahip bir 200
yanıt kodu alırsınız.
{
"targetResourceId": "/subscriptions/targetSub/resourceGroups/targetRG/providers/Microsoft.CognitiveServices/accounts/targetService",
"targetResourceRegion": "targetResourceRegion",
"targetClassifierId": "targetClassifier",
"targetClassifierLocation": "https://targetEndpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/targetClassifier",
"accessToken": "accessToken",
"expirationDateTime": "timestamp"
}
Kopyalama işlemini başlatma
Aşağıdaki HTTP isteği, kaynak kaynakta kopyalama işlemini başlatır. Kaynak kaynağınızın uç noktasını ve anahtarını URL ve üst bilgi olarak girmeniz gerekir. İstek URL'sinin kopyalamak istediğiniz kaynak sınıflandırıcının sınıflandırıcı kimliğini içerdiğine dikkat edin.
POST {endpoint}/documentintelligence/documentClassifiers/{classifierId}:copyTo?api-version=2024-07-31-preview
Ocp-Apim-Subscription-Key: {<your-key>}
İsteğinizin gövdesi, önceki adımda verilen yanıttır.
{
"targetResourceId": "/subscriptions/targetSub/resourceGroups/targetRG/providers/Microsoft.CognitiveServices/accounts/targetService",
"targetResourceRegion": "targetResourceRegion",
"targetClassifierId": "targetClassifier",
"targetClassifierLocation": "https://targetEndpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/targetClassifier",
"accessToken": "accessToken",
"expirationDateTime": "timestamp"
}
Model yanıtı
Belge sınıflandırma modeliyle bir giriş dosyasını analiz edin.
https://{endpoint}/documentintelligence/documentClassifiers/{classifier}:analyze?api-version=2024-02-29-preview
API'den başlayarak, istekteki 2024-07-31-preview
sorgu parametresini kullanarak pages
giriş belgesinden analiz etmek için sayfalar belirtebilirsiniz.
https://{service-endpoint}/formrecognizer/documentClassifiers/{classifier}:analyze?api-version=2023-07-31
Yanıt, yanıtın belgeler bölümünde ilişkili sayfa aralıklarıyla tanımlanan belgeleri içerir.
{
...
"documents": [
{
"docType": "formA",
"boundingRegions": [
{ "pageNumber": 1, "polygon": [...] },
{ "pageNumber": 2, "polygon": [...] }
],
"confidence": 0.97,
"spans": []
},
{
"docType": "formB",
"boundingRegions": [
{ "pageNumber": 3, "polygon": [...] }
],
"confidence": 0.97,
"spans": []
}, ...
]
}
Sonraki adımlar
Özel sınıflandırma modelleri oluşturmayı öğrenin: