Belge Zekası özel sinir modeli

Önemli

  • Document Intelligence genel önizleme sürümleri, etkin geliştirme aşamasında olan özelliklere erken erişim sağlar. Genel Kullanılabilirlik (GA) öncesinde kullanıcı geri bildirimlerine göre özellikler, yaklaşımlar ve süreçler değişebilir.
  • Belge Zekası istemci kitaplıklarının genel önizleme sürümü varsayılan olarak REST API sürüm 2024-07-31-preview'dır.
  • Genel önizleme sürümü 2024-07-31-preview şu anda yalnızca aşağıdaki Azure bölgelerinde kullanılabilir. AI Studio'daki özel oluşturucu (belge alanı ayıklama) modelinin yalnızca Orta Kuzey ABD bölgesinde kullanılabildiğini unutmayın:
    • Doğu ABD
    • Batı ABD2
    • Batı Avrupa
    • Orta Kuzey ABD

Bu içerik şunlar için geçerlidir:Checkmark v4.0 (önizleme) | Önceki sürümler:mavi onay işareti v3.1 (GA)mavi onay işareti v3.0 (GA)

Bu içerik şunlar için geçerlidir: Checkmark v3.1 (GA) | En son sürüm: mor onay işareti v4.0 (önizleme) | Önceki sürümler: mavi onay işareti v3.0

Bu içerik şunlar için geçerlidir: Checkmark v3.0 (GA) | En son sürümler:mor onay işareti v4.0 (önizleme)mor onay işareti v3.1

Özel sinirsel belge modelleri veya sinir modelleri, belgelerden etiketlenmiş alanları doğru bir şekilde ayıklamak için düzen ve dil özelliklerini birleştiren, derin öğrenilmiş bir model türüdür. Temel özel sinir modeli, yapılandırılmış ve yarı yapılandırılmış belgelerden alan ayıklamak için eğitilmeye uygun hale getiren çeşitli belge türleri üzerinde eğitilir. Özel sinir modelleri v3.0 ve üzeri modellerde kullanılabilir Aşağıdaki tabloda her kategori için yaygın belge türleri listelenmiştir:

Belgeler Örnekler
Yapılandırılmış anketler, anketler
Yarı yapılandırılmış faturalar, satın alma siparişleri

Özel sinir modelleri, özel şablon modelleri ile aynı etiketleme biçimini ve stratejisini paylaşır. Şu anda özel sinir modelleri, özel şablon modelleri tarafından desteklenen alan türlerinin yalnızca bir alt kümesini destekler.

Model özellikleri

Önemli

API sürümü 2024-02-29-preview özel sinir modelleriyle başlayarak çakışan alanlar ve tablo hücresi güveni desteği eklendi.

Özel sinir modelleri şu anda anahtar-değer çiftlerini, seçim işaretlerini ve yapılandırılmış alanları (tablolar) destekler.

Form alanları Seçim işaretleri Tablosal alanlar İmza Bölge etiketleme Çakışan alanlar
Desteklenir Desteklenir Desteklenir Desteklenmeyen Desteklenir 1 Desteklenir 2

1 Özel sinir modellerindeki bölge etiketleri, belirtilen bölge için Düzen API'sinden alınan sonuçları kullanır. Bu özellik, herhangi bir değer yoksa eğitim zamanında metin oluşturulan şablon modellerinden farklıdır.
2 Rest API sürümünden 2024-02-29-previewbaşlayarak çakışan alanlar desteklenir. Çakışan alanların bazı sınırları vardır. Daha fazla bilgi için bkz. çakışan alanlar.

Derleme modu

İşlem, Build şablon ve sinir özel modellerini destekler. REST API'nin ve istemci kitaplıklarının önceki sürümleri artık şablon modu olarak bilinen tek bir derleme modunu destekliyor.

Sinir modelleri aynı bilgilere ancak farklı sayfa yapılarına sahip belgeleri destekler. Bu belgelere örnek olarak, aynı bilgileri paylaşan ancak şirketler arasında görünüm olarak farklılık gösterebilen Birleşik Devletler W2 formları verilebilir. Daha fazla bilgi için bkz. Özel model derleme modu.

Çakışan alanlar

API sürümlerinin ve sonraki sürümlerin 2024-02-29-preview yayımlanmasıyla birlikte, özel sinir modelleri çakışan alanları destekler:

Çakışan alanlar

API 2024-07-31-preview ve sonraki sürümlerinin yayımlanmasıyla birlikte, özel sinir modelleri çakışan alanları destekleyecektir:

Çakışan alanları kullanmak için veri kümenizin beklenen çakışmaya sahip en az bir örnek içermesi gerekir. Bir çakışmayı etiketlemek için bölge etiketlemesini kullanarak her alan için içerik aralıklarının her birini (çakışma ile birlikte) belirleyin. Alan seçimiyle örtüşme etiketleme (bir değeri vurgulama) Studio'da başarısız olur. Bölge etiketleme, alan çakışmalarını göstermek için desteklenen tek etiketleme aracıdır. Çakışma desteği şunları içerir:

  • Tam çakışma. Aynı belirteç kümesi iki farklı alan için etiketlenmiştir.
  • Kısmi çakışma. Bazı belirteçler her iki alana da aittir, ancak yalnızca bir alanın veya diğerinin parçası olan belirteçler vardır.

Çakışan alanların bazı sınırları vardır:

  • Herhangi bir belirteç veya sözcük yalnızca iki alan olarak etiketlenebilir.
  • bir tablodaki çakışan alanlar tablo satırlarına yayılamaz.
  • Çakışan alanlar yalnızca veri kümesindeki en az bir örnek bu alanlar için çakışan etiketler içeriyorsa tanınabilir.

Çakışan alanları kullanmak için veri kümenizi çakışanlarla etiketleyip modeli API sürümü 2024-02-29-preview veya üzeriyle eğitin.

Tablosal alanlar

API'nin 2022-06-30-preview ve sonraki sürümlerinin yayımlanmasıyla birlikte, özel sinir modelleri tablo, satır ve hücre verilerini analiz etmek için tablosal alanları (tablolar) destekler ve daha fazla güvenle:

  • API sürüm 2022-06-30-preview veya sonraki sürümlerle eğitilen modeller tablosal alan etiketlerini kabul eder.
  • API sürüm 2022-06-30-preview veya üzeri kullanılarak özel sinir modelleri ile analiz edilen belgeler, tablolar arasında toplanan tablosal alanlar oluşturur.
  • Sonuçlar, bir çözümleme işleminin analyzeResult ardından döndürülen nesnenin documents dizisinde bulunabilir.

Tablosal alanlar, varsayılan olarak çapraz sayfa tablolarını destekler:

  • Birden çok sayfaya yayılan bir tabloyu etiketlemek için, tablonun her satırını tek bir tablodaki farklı sayfalar arasında etiketle.
  • En iyi uygulama olarak, veri kümenizin beklenen varyasyonlardan birkaç örnek içerdiğinden emin olun. Örneğin, tüm tablonun tek bir sayfada olduğu ve tabloların iki veya daha fazla sayfayı nereye yayılacağı örneklerini ekleyin.

Tablosal alanlar, tablo olarak tanınmayan bir belge içinde yinelenen bilgileri ayıklarken de yararlıdır. Örneğin, özgeçmişteki iş deneyimlerinin yinelenen bir bölümü tablosal alan olarak etiketlenebilir ve ayıklanabilir.

Tablosal alanlar, API'den 2024-02-29-preview başlayarak tablo, satır ve hücre güvenilirliği sağlar:

  • Düzeltildi veya dinamik tablolar aşağıdaki öğeler için güvenilirlik desteği ekler:

    • Tablo güveni, tablonun tamamının ne kadar doğru tanınıldığını gösteren bir ölçüdür.
    • Satır güveni, tek bir satırın tanınma ölçüsü.
    • Hücre güvenilirliği, tek bir hücrenin tanıma ölçüsüdür.
  • Önerilen yaklaşım, önce tablodan, ardından satırdan ve sonra hücreden başlayarak doğruluğu yukarıdan aşağıya doğru gözden geçirmektir. Tablo, satır ve hücre güvenilirliği hakkında daha fazla bilgi edinmek için güvenilirlik ve doğruluk puanlarına bakın.

Desteklenen diller ve yerel ayarlar

Desteklenen dillerin tam listesi için Dil Desteği(özel modeller) bölümüne bakın.

Desteklenen bölgeler

18 Ekim 2022 itibarıyla, Document Intelligence özel sinir modeli eğitimi bir sonraki bildirime kadar yalnızca aşağıdaki Azure bölgelerinde kullanılabilir olacaktır:

  • Doğu Avustralya
  • Güney Brezilya
  • Orta Kanada
  • Orta Hindistan
  • Central US
  • Doğu Asya
  • Doğu ABD
  • Doğu ABD 2
  • Orta Fransa
  • Doğu Japonya
  • Orta Güney ABD
  • Güneydoğu Asya
  • Güney Birleşik Krallık
  • West Europe
  • Batı ABD 2
  • US Gov Arizona
  • US Gov Virginia

İpucu

Listelenen belirli bölgelerden birinde eğitilen bir modeli başka bir bölgeye kopyalayabilir ve uygun şekilde kullanabilirsiniz.

Modeli başka bir bölgeye kopyalamak için REST API'yi veya Document Intelligence Studio'yu kullanın.

İpucu

Listelenen belirli bölgelerden birinde eğitilen bir modeli başka bir bölgeye kopyalayabilir ve uygun şekilde kullanabilirsiniz.

Modeli başka bir bölgeye kopyalamak için REST API'yi veya Document Intelligence Studio'yu kullanın.

İpucu

Listelenen belirli bölgelerden birinde eğitilen bir modeli başka bir bölgeye kopyalayabilir ve uygun şekilde kullanabilirsiniz.

Modeli başka bir bölgeye kopyalamak için REST API'yi veya Document Intelligence Studio'yu kullanın.

Giriş gereksinimleri

  • En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.

  • Desteklenen dosya biçimleri:

    Model PDF Resim:
    jpeg/jpg, png, bmp, tiff, heif
    Microsoft Office:
    Word (docx), Excel (xlsx), PowerPoint (pptx) ve HTML
    Okundu
    Düzen ✔ (2024-02-29-preview, 2023-10-31-preview veya üzeri)
    Genel Belge
    Önceden oluşturulmuş
    Özel nöral

    ✱ Microsoft Office dosyaları şu anda diğer modeller veya sürümler için desteklenmiyor.

  • PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).

  • Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve ücretsiz (F0) katmanı için 4 MB'tır.

  • Görüntü boyutları 50 x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.

  • PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.

  • Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, inç başına 150 nokta olan yaklaşık 8nokta metnine karşılık gelir.

  • Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.

  • Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve sinir modeli için 1G-MB'tır.

  • Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfadır 1GB .

En iyi yöntemler

Özel sinir modelleri, özel şablon modellerinden birkaç farklı şekilde farklılık gösterir. Özel şablon veya model, etiketlenmiş verileri ayıklamak için tutarlı bir görsel şablonu kullanır. Özel sinir modelleri, alanları ayıklamak için yapılandırılmış ve yarı yapılandırılmış özellikleri destekler. Model türleri arasında seçim yaparken bir sinir modeliyle başlayın ve işlev gereksinimlerinizi destekleyip desteklemediğini belirlemek için test edin.

  • Çeşitlemelerle ilgilenme - Özel sinir modelleri tek bir belge türünün farklı biçimlerinde genelleştirebilir. En iyi yöntem olarak, belge türünün tüm varyasyonları için tek bir model oluşturun. Eğitim veri kümesine farklı varyasyonların her biri için en az beş etiketli örnek ekleyin.
  • Alan adlandırma - Verileri etiketlediğinizde, değerle ilgili alanı etiketlemek ayıklanan anahtar-değer çiftlerinin doğruluğunu artırır. Örneğin, sağlayıcı kimliğini içeren bir alan değeri için alanı supplier_id adlandırmayı göz önünde bulundurun. Alan adları belgenin dilinde olmalıdır.
  • Bitişik değerleri etiketleme - Bir alanın değer belirteçleri/sözcükleri şu değerlerden biri olmalıdır:
    • Diğer alanlarla kesişmeden, doğal okuma sırasında art arda sıralanmış olarak
    • Diğer alanları kapsamaz bir bölgede
  • Temsili veriler - Eğitim örneklerindeki değerler çeşitli ve temsili olmalıdır. Örneğin, bir alanın adı date ise, bu alanın değerleri bir tarih olmalıdır. Rastgele bir dize gibi yapay değer model performansını etkileyebilir.

Geçerli Sınırlamalar

  • Özel sinir modeli sayfa sınırları arasında bölünmüş değerleri tanımaz.
  • Özel bir sinir modelini eğitmek için özel şablon modelleri için etiketlenmiş bir veri kümesi kullanılırsa, özel sinirsel desteklenmeyen alan türleri yoksayılır.
  • Özel sinir modelleri ayda 20 derleme işlemiyle sınırlıdır. Sınırın artırılmasını istiyorsanız bir destek isteği açın. Daha fazla bilgi için bkz . Belge Yönetim Bilgileri hizmeti kotaları ve sınırları.

Model eğitma

Özel sinir modelleri v3.0 ve üzeri modellerde kullanılabilir.

Belge Türü REST API SDK Modelleri Etiketleme ve Test Et
Özel belge Belge Yönetim Bilgileri 3.1 Belge Yönetim Bilgileri SDK'sı Belge Makine Zekası Stüdyosu

Modeli Build eğitmeye yönelik işlem, özel bir buildMode sinir modelini eğitmek için yeni bir özelliği destekler ve değerini olarak neuralayarlayınbuildMode.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Faturalandırma

sürümünden 2024-07-31-previewbaşlayarak, özel sinir modelinizi standart 30 dakikadan daha uzun süreler için eğitebilirsiniz. Önceki sürümler eğitim örneği başına 30 dakika ile sınırlıdır ve ayda toplam 20 ücretsiz eğitim örneği vardır. Artık ile 2024-07-31-preview10 saatlik ücretsiz model eğitimi alabilir ve modeli 10 saat kadar eğitebilirsiniz.

10 boş saatin tamamını büyük bir veri kümesiyle tek bir model derlemesinde harcamayı veya belirterek maxTrainingHoursişlemin en uzun süre değerini build ayarlayarak birden çok derlemede kullanmayı seçebilirsiniz:

POST https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  ...,
  "maxTrainingHours": 10
}

Önemli

  • Ek sinir modellerini eğitmek veya modelleri 10 saati aşan daha uzun bir süre için eğitmek istiyorsanız faturalama ücretleri uygulanır. Faturalama ücretleriyle ilgili ayrıntılar için fiyatlandırma sayfasına bakın.
  • bu ücretli eğitim hizmetini, istenen en fazla saat sayısına ayarlayarak maxTrainingHours kabul edebilirsiniz. Bütçesi olmayan ancak maxTrainingHours 10 saatten fazla ayarlanmış API çağrıları başarısız olur.
  • Her derleme, eğitim veri kümesinin türüne ve boyutuna bağlı olarak farklı zaman aldığından, sinir modelini eğiterek harcanan gerçek süre için faturalama hesaplanır ve eğitim işi başına en az 30 dakika olur.
  • Bu ücretli eğitim özelliği, daha uzun süreler için daha büyük veri kümelerini eğitim saatlerinde esneklikle eğitmenizi sağlar.

GET /documentModels/{myCustomModel}
{
  "modelId": "myCustomModel",
  "trainingHours": 0.23,
  "docTypes": { ... },
  ...
}

Not

Belge Yönetim Bilgileri sürümleri v3.1 (2023-07-31) ve v3.0 (2022-08-31)için özel sinir modelinin ücretli eğitimi etkin değildir. Eski iki sürüm için model başına en fazla 30 dakika eğitim süresi elde edersiniz. 20'den fazla model örneği eğitmek istiyorsanız, eğitim sınırını artırmak için bir Azure desteği bileti oluşturabilirsiniz.

Faturalandırma

Belge Zekası sürümleri v3.1 (2023-07-31) and v3.0 (2022-08-31)için, model başına en fazla 30 dakika eğitim süresi ve ayda en fazla 20 eğitim ücretsiz olarak alırsınız. 20'den fazla model örneği eğitmek istiyorsanız, eğitim sınırını artırmak için bir Azure desteği bileti oluşturabilirsiniz. Azure desteği bilet için alanına girinsummary: Increase Document Intelligence custom neural training (TPS) limit.

Önemli

  • Eğitim sınırını artırırken, 2 özel sinir modeli eğitim oturumunun 1 eğitim saati olarak kabul edileceğini unutmayın. Eğitim oturumlarının sayısını artırmaya yönelik fiyatlandırma hakkında daha fazla bilgi için fiyatlandırma sayfasına* bakın.
  • Eğitim sınırı artışı için Azure desteği bilet abonelik düzeyinde değil yalnızca kaynak düzeyinde uygulanabilir. Destek biletinde kaynak kimliğinizi ve bölgenizi belirterek tek bir Belge Yönetim Bilgileri kaynağı için eğitim sınırı artışı isteyebilirsiniz.

Modelleri 30 dakikadan daha uzun süreler için eğitmek istiyorsanız, en yeni sürümümüz v4.0 (2024-07-31-preview)olan ile ücretli eğitimi destekliyoruz. En son sürümü kullanarak, daha büyük belgeleri işlemek için modelinizi daha uzun bir süre eğitebilirsiniz. Ücretli eğitim hakkında daha fazla bilgi için bkz. Faturalama v4.0.

Faturalandırma

Belge Zekası sürümleri v3.1 (2023-07-31) and v3.0 (2022-08-31)için, model başına en fazla 30 dakika eğitim süresi ve ayda en fazla 20 eğitim ücretsiz olarak alırsınız. 20'den fazla model örneği eğitmek istiyorsanız, eğitim sınırını artırmak için bir Azure desteği bileti oluşturabilirsiniz. Azure desteği bilet için alanına girinsummary: Increase Document Intelligence custom neural training (TPS) limit.

Önemli

  • Eğitim sınırını artırırken, 2 özel sinir modeli eğitim oturumunun 1 eğitim saati olarak kabul edileceğini unutmayın. Eğitim oturumlarının sayısını artırmaya yönelik fiyatlandırma hakkında daha fazla bilgi için fiyatlandırma sayfasına bakın.
  • Eğitim sınırı artışı için Azure desteği bilet abonelik düzeyinde değil yalnızca kaynak düzeyinde uygulanabilir. Destek biletinde kaynak kimliğinizi ve bölgenizi belirterek tek bir Belge Yönetim Bilgileri kaynağı için eğitim sınırı artışı isteyebilirsiniz.

Modelleri 30 dakikadan daha uzun süreler için eğitmek istiyorsanız, en yeni sürümümüz v4.0 (2024-07-31)olan ile ücretli eğitimi destekliyoruz. En son sürümü kullanarak, daha büyük belgeleri işlemek için modelinizi daha uzun bir süre eğitebilirsiniz. Ücretli eğitim hakkında daha fazla bilgi için bkz. Faturalama v4.0.

Sonraki adımlar

Özel modeller oluşturmayı ve oluşturmayı öğrenin: