Belge Zekası özel modelleri
Önemli
- Document Intelligence genel önizleme sürümleri, etkin geliştirme aşamasında olan özelliklere erken erişim sağlar. Genel Kullanılabilirlik (GA) öncesinde kullanıcı geri bildirimlerine göre özellikler, yaklaşımlar ve süreçler değişebilir.
- Belge Zekası istemci kitaplıklarının genel önizleme sürümü varsayılan olarak REST API sürüm 2024-07-31-preview'dır.
- Genel önizleme sürümü 2024-07-31-preview şu anda yalnızca aşağıdaki Azure bölgelerinde kullanılabilir. AI Studio'daki özel oluşturucu (belge alanı ayıklama) modelinin yalnızca Orta Kuzey ABD bölgesinde kullanılabildiğini unutmayın:
- Doğu ABD
- Batı ABD2
- Batı Avrupa
- Orta Kuzey ABD
Bu içerik şunlar için geçerlidir: v4.0 (önizleme) | Önceki sürümler: v3.1 (GA) v3.0 (GA) v2.1 (GA)
Bu içerik şunlar için geçerlidir: v3.1 (GA) | En son sürüm: v4.0 (önizleme) | Önceki sürümler: v3.0 v2.1
Bu içerik şunlar için geçerlidir: v3.0 (GA) | En son sürümler: v4.0 (önizleme) v3.1 | Önceki sürüm: v2.1
Bu içerik şunlar için geçerlidir: v2.1 | En son sürüm: v4.0 (önizleme)
Belge Zekası, belgeleri tanımlamak, formlardan ve belgelerden bilgileri algılamak ve ayıklamak ve ayıklanan verileri yapılandırılmış bir JSON çıkışına döndürmek için gelişmiş makine öğrenmesi teknolojisini kullanır. Belge Zekası ile belge çözümleme modellerini, önceden oluşturulmuş/önceden eğitilmiş veya eğitilmiş tek başına özel modellerinizi kullanabilirsiniz.
Özel modeller artık ayıklama modelini çağırmadan önce belge türünü tanımlamanız gereken senaryolar için özel sınıflandırma modelleri içerir. Sınıflandırıcı modelleri API'den 2023-07-31 (GA)
başlayarak kullanılabilir. Sınıflandırma modeli, işletmenize özgü form ve belgelerden alanları analiz etmek ve ayıklamak için özel bir ayıklama modeliyle eşleştirilebilir. Tek başına özel ayıklama modelleri bir araya getirilerek oluşturulan modeller oluşturulabilir.
Özel belge modeli türleri
Özel belge modelleri, özel şablon veya özel form ve özel nöral veya özel belge modellerinden biri olmak üzere iki türden biri olabilir. Her iki model için etiketleme ve eğitim süreci aynıdır, ancak modeller aşağıdaki gibi farklılık gösterir:
Özel ayıklama modelleri
Özel ayıklama modeli oluşturmak için, bir belge veri kümesini ayıklanmasını istediğiniz değerlerle etiketleyip etiketlenmiş veri kümesinde modeli eğitin. Başlamak için aynı form veya belge türünün yalnızca beş örneğine ihtiyacınız vardır.
Özel sinir modeli
Önemli
Sürüm 4.0 (2024-02-29-preview) API'siyle başlayarak, özel sinir modelleri artık çakışan alanları ve tablo, satır ve hücre düzeyi güvenilirliğini destekliyor.
Özel sinirsel (özel belge) modeli, derin öğrenme modellerini ve büyük bir belge koleksiyonu üzerinde eğitilen temel modeli kullanır. Bu model daha sonra etiketli bir veri kümesiyle eğittiğinizde verilerinize ince ayarlar yapılır veya uyarlanır. Özel sinir modelleri, yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış belgelerden önemli veri alanlarını ayıklamayı destekler. İki model türü arasında seçim yaparken işlev gereksinimlerinizi karşılayıp karşılamadığını belirlemek için bir sinir modeliyle başlayın. Özel belge modelleri hakkında daha fazla bilgi edinmek için bkz. sinir modelleri.
Özel şablon modeli
Özel şablon veya özel form modeli, etiketlenmiş verileri ayıklamak için tutarlı bir görsel şablonu kullanır. Belgelerinizin görsel yapısındaki farklar modelinizin doğruluğunu etkiler. Anketler veya uygulamalar gibi yapılandırılmış formlar, tutarlı görsel şablonların örnekleridir.
Eğitim kümeniz, biçimlendirme ve düzenin bir belge örneğinden diğerine statik ve sabit olduğu yapılandırılmış belgelerden oluşur. Özel şablon modelleri anahtar-değer çiftlerini, seçim işaretlerini, tabloları, imza alanlarını ve bölgeleri destekler. Şablon modelleri ve desteklenen dillerden herhangi birindeki belgeler üzerinde eğitilebilir. Daha fazla bilgi için bkz. özel şablon modelleri.
Belgelerinizin dili ve ayıklama senaryoları özel sinir modellerini destekliyorsa, daha yüksek doğruluk için şablon modelleri üzerinde özel sinir modelleri kullanmanızı öneririz.
İpucu
Eğitim belgelerinizin tutarlı bir görsel şablonu sunduğunu onaylamak için, kümedeki her formdan kullanıcı tarafından girilen tüm verileri kaldırın. Boş formlar görünümde aynıysa, tutarlı bir görsel şablonu temsil ederler.
Daha fazla bilgi için bkz. Özel modeller için doğruluğu ve güvenilirliği yorumlama ve geliştirme.
Giriş gereksinimleri
En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.
Desteklenen dosya biçimleri:
Model PDF Resim: jpeg/jpg
,png
,bmp
,tiff
,heif
Microsoft Office:
Word (docx), Excel (xlsx), PowerPoint (pptx)Okundu ✔ ✔ ✔ Düzen ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview ve üzeri) Genel Belge ✔ ✔ Önceden oluşturulmuş ✔ ✔ Özel ayıklama ✔ ✔ Özel sınıflandırma ✔ ✔ ✔ ✱ Microsoft Office dosyaları şu anda diğer modeller veya sürümler için desteklenmiyor.
PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).
Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve ücretsiz (F0) katmanı için 4 MB'tır.
Görüntü boyutları 50 x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.
PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.
Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, inç başına 150 nokta olan yaklaşık
8
nokta metnine karşılık gelir.Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.
Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve sinir modeli için 1G-MB'tır.
Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfadır
1GB
.
En iyi eğitim verileri
Eğitim girişi verileri, herhangi bir makine öğrenmesi modelinin temelini oluşturur. Modelin kalitesini, doğruluğunu ve performansını belirler. Bu nedenle, Belge Yönetim Bilgileri projeniz için mümkün olan en iyi eğitim giriş verilerini oluşturmak çok önemlidir. Belge Zekası özel modelini kullandığınızda, kendi eğitim verilerinizi sağlarsınız. Modellerinizi etkili bir şekilde eğitmeye yardımcı olacak birkaç ipucu aşağıdadır:
Mümkün olduğunda görüntü tabanlı PDF'ler yerine metin tabanlı kullanın. Resim tabanlı PDF'yi tanımlamanın bir yolu, belgede belirli bir metni seçmeyi denemektir. Metnin yalnızca tüm görüntüsünü seçebiliyorsanız, belge metin tabanlı değil görüntü tabanlıdır.
Eğitim belgelerinizi her biçim için bir alt klasör (JPEG/JPG, PNG, BMP, PDF veya TIFF) kullanarak düzenleyin.
Tüm kullanılabilir alanların tamamlandığı formları kullanın.
Her alanda farklı değerlere sahip formlar kullanın.
Resimleriniz düşük kaliteliyse daha büyük bir veri kümesi (beşten fazla eğitim belgesi) kullanın.
Tek bir model mi yoksa tek bir modelde oluşturulmuş birden çok model mi kullanmanız gerektiğini belirleyin.
Veri kümenizi, her klasörün benzersiz bir şablon olduğu klasörler halinde segmentlere ayırmayı göz önünde bulundurun. Klasör başına bir model eğitin ve elde edilen modelleri tek bir uç noktada oluşturun. Tek bir modelle analiz edilen farklı biçimlere sahip olduğunuzda model doğruluğu düşebilir.
Formunuzda biçimler ve sayfa sonları içeren çeşitlemeler varsa birden çok modeli eğitmek için veri kümenizi segmentlere ayırmayı göz önünde bulundurun. Özel formlar tutarlı bir görsel şablonu kullanır.
Biçimleri, belge türlerini ve yapıyı hesaplayarak dengeli bir veri kümeniz olduğundan emin olun.
Derleme modu
İşlem, build custom model
şablon ve sinir özel modelleri için destek ekler. REST API'nin ve istemci kitaplıklarının önceki sürümleri artık şablon modu olarak bilinen tek bir derleme modunu destekliyor.
Şablon modelleri yalnızca aynı temel sayfa yapısına (tekdüzen bir görsel görünüme) veya belge içindeki öğelerin aynı göreli konumuna sahip belgeleri kabul eder.
Sinir modelleri aynı bilgilere ancak farklı sayfa yapılarına sahip belgeleri destekler. Bu belgelere örnek olarak, aynı bilgileri paylaşan ancak şirketler arasında görünüm olarak farklılık gösteren Birleşik Devletler W2 formları verilebilir.
Bu tablo, GitHub'da derleme modu programlama dili SDK başvurularının ve kod örneklerinin bağlantılarını sağlar:
Programlama dili | SDK başvurusu | Kod örneği |
---|---|---|
C#/.NET | DocumentBuildMode Yapısı | Sample_BuildCustomModelAsync.cs |
Java | DocumentBuildMode Sınıfı | BuildModel.java |
JavaScript | DocumentBuildMode türü | buildModel.js |
Python | DocumentBuildMode Sabit Listesi | sample_build_model.py |
Model özelliklerini karşılaştırma
Aşağıdaki tabloda özel şablon ve özel nöral özellikler karşılaştırılarak yer alır:
Özellik | Özel şablon (form) | Özel nöral (belge) |
---|---|---|
Belge yapısı | Şablon, form ve yapılandırılmış | Yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış |
Eğitim süresi | 1 - 5 dakika | 20 dakika ile 1 saat arasında |
Veri ayıklama | Anahtar-değer çiftleri, tablolar, seçim işaretleri, koordinatlar ve imzalar | Anahtar-değer çiftleri, seçim işaretleri ve tablolar |
Çakışan alanlar | Desteklenmez | Desteklenir |
Belge çeşitlemeleri | Her çeşitleme için bir model gerektirir | Tüm varyasyonlar için tek bir model kullanır |
Dil desteği | Dil desteği özel şablonu | Dil desteği özel sinir |
Özel sınıflandırma modeli
Belge sınıflandırması, (v3.1 GA) API'siyle Belge Zekası 2023-07-31
tarafından desteklenen yeni bir senaryodur. Belge sınıflandırıcı API'si sınıflandırma ve bölme senaryolarını destekler. Uygulamanızın desteklediği farklı belge türlerini tanımlamak için bir sınıflandırma modeli eğitin. Sınıflandırma modelinin giriş dosyası birden çok belge içerebilir ve ilişkili bir sayfa aralığındaki her belgeyi sınıflandırır. Daha fazla bilgi edinmek için bkz. özel sınıflandırma modelleri.
Not
API sürümü belge sınıflandırmasıyla 2024-02-29-preview
başlayarak artık sınıflandırma için Office belge türlerini destekliyor. Bu API sürümü, sınıflandırma modeli için artımlı eğitim de sağlar.
Özel model araçları
Document Intelligence v3.1 ve üzeri modeller aşağıdaki araçları, uygulamaları ve kitaplıkları, programları ve kitaplıkları destekler:
Özellik | Kaynaklar | Model Kimliği |
---|---|---|
Özel model | • Document Intelligence Studio • REST API • C# SDK • Python SDK |
custom-model-id |
Özel model yaşam döngüsü
Özel modelin yaşam döngüsü, modeli eğitmek için kullanılan API sürümüne bağlıdır. API sürümü genel kullanılabilirlik (GA) sürümüyse, özel model bu sürümle aynı yaşam döngüsüne sahiptir. ÖZEL model, API sürümü kullanım dışı bırakıldığında çıkarım için kullanılamaz. API sürümü bir önizleme sürümüyse özel model, API'nin önizleme sürümüyle aynı yaşam döngüsüne sahiptir.
Document Intelligence v2.1 aşağıdaki araçları, uygulamaları ve kitaplıkları destekler:
Not
Özel model türleri özel sinir ve özel şablon , Belge Yönetim Bilgileri sürümü v3.1 ve v3.0 API'leriyle kullanılabilir.
Özellik | Kaynaklar |
---|---|
Özel model | • Belge Zekası etiketleme aracı • REST API • İstemci kitaplığı SDK'sı • Belge Zekası Docker kapsayıcısı |
Özel model derleme
Özel modelleri kullanarak belirli veya benzersiz belgelerinizdeki verileri ayıklayın. Aşağıdaki kaynaklara ihtiyacınız vardır:
Azure aboneliği. Ücretsiz bir tane oluşturabilirsiniz.
Azure portalında bir Belge Zekası örneği. Hizmeti denemek için ücretsiz fiyatlandırma katmanını (
F0
) kullanabilirsiniz. Kaynağınız dağıtıldıktan sonra anahtarınızı ve uç noktanızı almak için Kaynağa git'i seçin.
Örnek Etiketleme aracı
İpucu
- Gelişmiş bir deneyim ve gelişmiş model kalitesi için Document Intelligence v3.0 Studio'yu deneyin.
- v3.0 Studio, v2.1 etiketli verilerle eğitilen tüm modelleri destekler.
- v2.1'den v3.0'a geçiş hakkında ayrıntılı bilgi için API geçiş kılavuzuna başvurabilirsiniz.
- REST API veya C#, Java, JavaScript veya Python SDK'mıza bakın.. v3.0 sürümünü kullanmaya başlamak için /quickstarts.
Belge Zekası Örnek Etiketleme aracı, Belge Zekası ve Optik Karakter Tanıma (OCR) özelliklerinin en son özelliklerini test etmenizi sağlayan açık kaynak bir araçtır.
Özel model oluşturmaya ve kullanmaya başlamak için Örnek Etiketleme aracı hızlı başlangıcını deneyin.
Belge Makine Zekası Stüdyosu
Not
Document Intelligence Studio, v3.1 ve v3.0 API'leriyle kullanılabilir.
Document Intelligence Studio giriş sayfasında Özel ayıklama modelleri'ni seçin.
Projelerim'in altında Proje oluştur'u seçin.
Proje ayrıntıları alanlarını tamamlayın.
Eğitim veri kaynağınızı bağlamak için Depolama hesabınızı ve Blob kapsayıcınızı ekleyerek hizmet kaynağını yapılandırın.
Projenizi gözden geçirin ve oluşturun.
Özel modelinizi etiketlemek, derlemek ve test etmek için örnek belgelerinizi ekleyin.
İlk özel ayıklama modelinizi oluşturmaya yönelik ayrıntılı bir izlenecek yol için bkz. Özel ayıklama modeli oluşturma.
Özel model ayıklama özeti
Bu tablo desteklenen veri ayıklama alanlarını karşılaştırır:
Model | Form alanları | Seçim işaretleri | Yapılandırılmış alanlar (Tablolar) | İmza | Bölge etiketleme | Çakışan alanlar |
---|---|---|---|---|---|---|
Özel şablon | ✔ | ✔ | ✔ | ✔ | ✔ | Yok |
Özel nöral | ✔ | ✔ | ✔ | Yok | * | ✔ (2024-02-29-preview) |
Tablo simgeleri:
✔ —Desteklenir
**yok—Şu anda kullanılamıyor;
*-Modele bağlı olarak farklı davranır. Şablon modelleriyle yapay veriler eğitim zamanında oluşturulur. Sinir modellerinde, bölgede tanınan metinden çıkma seçilidir.
İpucu
İki model türü arasında seçim yaparken, işlevsel gereksinimlerinizi karşılıyorsa özel bir sinir modeliyle başlayın. Özel sinir modelleri hakkında daha fazla bilgi edinmek için bkz. özel sinir.
Özel model geliştirme seçenekleri
Aşağıdaki tabloda, ilişkili araçlar ve istemci kitaplıklarıyla kullanılabilen özellikler açıklanmaktadır. En iyi uygulama olarak, burada listelenen uyumlu araçları kullandığınızdan emin olun.
Document type | REST API | SDK | Modelleri Etiketleme ve Test Et |
---|---|---|---|
Özel şablon v 4.0 v3.1 v3.0 | Belge Yönetim Bilgileri 3.1 | Belge Yönetim Bilgileri SDK'sı | Belge Makine Zekası Stüdyosu |
Özel nöral v4.0 v3.1 v3.0 | Belge Yönetim Bilgileri 3.1 | Belge Yönetim Bilgileri SDK'sı | Belge Makine Zekası Stüdyosu |
Özel form v2.1 | Belge Zekası 2.1 GA API'si | Belge Yönetim Bilgileri SDK'sı | Örnek etiketleme aracı |
Not
3.0 API'siyle eğitilen özel şablon modellerinde, OCR altyapısında yapılan iyileştirmelerden kaynaklanan 2.1 API üzerinde birkaç geliştirme yapılacaktır. 2.1 API'sini kullanarak özel şablon modelini eğitmek için kullanılan veri kümeleri, 3.0 API'sini kullanarak yeni bir modeli eğitmek için kullanılabilir.
En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.
Desteklenen dosya biçimleri JPEG/JPG, PNG, BMP, TIFF ve PDF'tir (metin eklenmiş veya taranmış). Metin eklenmiş PDF’ler, karakter ayıklama ve konum ile ilgili hata olasılığını azaltma açısından en iyi seçenektir.
PDF ve TIFF dosyaları için en fazla 2.000 sayfa işlenebilir. Ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir.
Dosya boyutu ücretli (S0) katman için 500 MB'tan az ve ücretsiz (F0) katman için 4 MB'tan az olmalıdır.
Görüntü boyutları 50 x 50 piksel ile 10.000 x 10.000 piksel arasında olmalıdır.
PDF boyutları, Yasal veya A3 kağıt boyutuna karşılık gelen 17 x 17 inç veya daha küçüktür.
Eğitim verilerinin toplam boyutu 500 sayfa veya daha azdır.
PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.
İpucu
Eğitim verileri:
- Mümkünse, görüntü tabanlı belgeler yerine metin tabanlı PDF belgeleri kullanın. Taranan PDF'ler görüntü olarak işlenir.
- Lütfen belge başına formun yalnızca tek bir örneğini sağlayın.
- Doldurulmuş formlar için, tüm alanlarının doldurulduğu örnekleri kullanın.
- Her alanda farklı değerlere sahip olan formlar kullanın.
- Form görüntüleriniz daha düşük kalitedeyse daha büyük bir veri kümesi kullanın. Örneğin, 10-15 resim kullanın.
Desteklenen diller ve yerel ayarlar
Desteklenen dillerin tam listesi için Dil Desteği— özel modeller sayfamıza bakın.
Sonraki adımlar
Belge Yönetim Bilgileri Örnek Etiketleme aracıyla kendi formlarınızı ve belgelerinizi işlemeyi deneyin.
Belge Zekası hızlı başlangıcını tamamlayın ve seçtiğiniz geliştirme dilinde bir belge işleme uygulaması oluşturmaya başlayın.
Document Intelligence Studio ile kendi formlarınızı ve belgelerinizi işlemeyi deneyin.
Belge Zekası hızlı başlangıcını tamamlayın ve seçtiğiniz geliştirme dilinde bir belge işleme uygulaması oluşturmaya başlayın.