Belge Alanı ayıklama - özel üretken yapay zeka modeli

Önemli

  • Document Intelligence genel önizleme sürümleri, etkin geliştirme aşamasında olan özelliklere erken erişim sağlar. Genel Kullanılabilirlik (GA) öncesinde kullanıcı geri bildirimlerine göre özellikler, yaklaşımlar ve süreçler değişebilir.
  • Belge Yönetim Bilgileri istemci kitaplıklarının genel önizleme sürümü varsayılan olarak REST API sürüm 2024-07-31-preview'dır ve şu anda yalnızca aşağıdaki Azure bölgelerinde kullanılabilir.
    • Doğu ABD
    • Orta Kuzey ABD

Belge alanı ayıklama (özel üretken yapay zeka) modeli, çok çeşitli görsel şablonlarda belgelerden kullanıcı tarafından belirtilen alanları ayıklamak için üretken yapay zeka kullanır. Özel üretken yapay zeka modeli, belge anlamanın gücünü Büyük Dil Modelleri (LLM' ler) ve özel ayıklama özelliklerinden gelen titizlik ve şemayla birleştirerek dakikalar içinde yüksek doğrulukta bir model oluşturur. Bu oluşturucu model türüyle, tek bir belgeyle başlayıp en az etiketlemeyle şema ekleme ve model oluşturma işlemine geçebilirsiniz. Özel üretken model, geliştiricilerin ve kuruluşların veri ayıklama iş akışlarını herhangi bir belge türü için daha yüksek doğruluk ve hız ile kolayca otomatikleştirmesine olanak tanır. Özel üretken yapay zeka modeli, etiketli örnekler olmadan belgelerden basit alanları ayıklama konusunda mükemmeldir. Ancak, birkaç etiketli örnek sağlamak karmaşık alanlar ve tablolar gibi kullanıcı tanımlı alanlar için ayıklama doğruluğunu artırır. Rest API veya istemci kitaplıklarını kullanarak bir model derlemesi ile analiz için belge gönderebilir ve özel oluşturucu işlemi kullanabilirsiniz.

Özel üretken yapay zeka modeli avantajları

  • Otomatik etiketleme. Büyük dil modellerini (LLM) kullanın ve çeşitli belge türleri ve görsel şablonları için kullanıcı tarafından belirtilen alanları ayıklayın.

  • Geliştirilmiş Genelleştirme. Yapılandırılmamış verilerden ve daha yüksek doğrulukla değişen belge şablonlarından veri ayıklayın.

  • Topraklanmış sonuçlar. Belgelerde ayıklanan verileri yerelleştirin. Özel üretken modeller, sonuçları uygun olduğunda temel alır ve içerikten yanıtın oluşturulmasını sağlar ve insan inceleme iş akışlarını etkinleştirir.

  • Güvenilirlik puanları. Ayıklanan her alan için güvenilirlik puanlarını kullanın, yüksek kaliteli ayıklanan verileri filtreleyin, doğrudan belgelerin işlenmesini en üst düzeye çıkarın ve insan inceleme maliyetlerini en aza indirin.

Yaygın kullanım örnekleri

  • Sözleşme Yaşam Döngüsü Yönetimi. Üretken bir model oluşturun ve çok çeşitli sözleşme türlerinden alanları, yan tümceleri ve yükümlülükleri ayıklayın.

  • Kredi ve Mortgage Uygulamaları. Kredi ve ipotek uygulama sürecinin otomasyonu, bankaların, kredi verenlerin ve kamu kuruluşlarının kredi ve ipotek uygulamasını hızlı bir şekilde işlemesini sağlar.

  • Finansal Hizmetler. Özel üretici yapay zeka modeliyle finansal raporlar ve varlık yönetimi raporları gibi karmaşık belgeleri analiz edin.

  • Gider yönetimi. Giderlerin doğrulanması için çeşitli perakendecilerin ve işletmelerin makbuzlarının ve faturalarının ayrıştırılması gerekir. Özel üretken yapay zeka modeli, farklı biçimlerde ve belgelerde farklı şablonlarla giderleri ayıklayabilir.

Eğitim veri kümesini yönetme

Diğer özel modellerimizle veri kümesini korumanız, yeni örnekler eklemeniz ve modeli doğruluk geliştirmeleri için eğitmeniz gerekir. Özel oluşturucu yapay zeka modeliyle etiketlenen belgeler dönüştürülür, şifrelenir ve modelin bir parçası olarak depolanır. Bu işlem, modelin ayıklama kalitesini artırmak için etiketlenmiş örnekleri sürekli kullanabilmesini sağlar. Diğer özel modellerde olduğu gibi modeller de Microsoft depolama alanında depolanır ve bunları istediğiniz zaman silebilirsiniz.

Belge Yönetim Bilgileri hizmeti veri kümelerinizi yönetir, ancak belgeleriniz şifrelenmiş olarak depolanır ve yalnızca belirli modelinizin model sonuçlarını geliştirmek için kullanılır. Hizmet tarafından yönetilen anahtar, verilerinizi şifrelemek için kullanılabilir veya isteğe bağlı olarak müşteri tarafından yönetilen bir anahtarla şifrelenebilir. Veri kümesinin yönetim ve yaşam döngüsündeki değişiklik yalnızca özel üretken modeller için geçerlidir.

Model özellikleri

Alan ayıklama özel oluşturucu modeli şu anda ve alanlarıyla 2024-07-31-preview dinamik tabloyu destekler:

Form alanları Seçim işaretleri Tablosal alanlar İmza Bölge etiketleme Çakışan alanlar
Desteklenir Desteklenir Desteklenir Desteklenmeyen Desteklenmeyen Desteklenir

Derleme modu

İşlem özel şablon, sinirsel ve üretken modelleri destekler. Bkz. Özel model derleme modu. build custom model Model türleri arasındaki farklar şunlardır:

  • Özel üretken yapay zeka modelleri çeşitli biçimlere, çeşitli şablonlara ve yapılandırılmamış verilere sahip karmaşık belgeleri işleyebilir.

  • Özel sinir modelleri karmaşık belge işlemeyi destekler ve ayrıca yapılandırılmış ve yarı yapılandırılmış belgeler için sayfalarda daha fazla varyansı destekler.

  • Özel şablon modelleri , etiketlenmiş verileri ayıklamak için anketler veya uygulamalar gibi tutarlı görsel şablonları kullanır.

Diller ve yerel ayar desteği

Alan ayıklama özel üretici modeli 2024-07-31-preview sürümü, en-us yerel ayarını destekler. Dil desteği hakkında daha fazla bilgi için bkz. Dil desteği - özel modeller.

Bölge desteği

Alan ayıklama özel üretim modeli 2024-07-31-preview sürümü yalnızca 'Doğu ABD' ve North Central US'de kullanılabilir.  

Giriş gereksinimleri

  • Desteklenen dosya biçimleri:

    Model PDF Resim:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Okundu
    Düzen ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Genel Belge
    Önceden oluşturulmuş
    Özel ayıklama
    Özel sınıflandırma ✔ (2024-07-31-preview, 2024-02-29-preview)
  • En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.

  • PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).

  • Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve 4 ücretsiz (F0) katman için MB'tır.

  • Görüntü boyutları 50 piksel x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.

  • PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.

  • Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, yaklaşık 150 nokta/inç (DPI) nokta metnine karşılık gelir 8 .

  • Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.

    • Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve 1 sinir modeli için GB'tır.

    • Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile GB'tır 1 . 2024-07-31-preview ve üzeri sürümler için eğitim verilerinin toplam boyutu gb ve en fazla 10.000 sayfadır 2 .

En iyi yöntemler

  • Temsili veriler. Gerçek veri dağıtımlarını hedefleyen temsili belgeleri kullanın ve yüksek kaliteli bir özel üretici modeli eğitin. Örneğin, hedef belge kısmen doldurulmuş tablo alanları içeriyorsa, kısmen doldurulmuş tablolardan oluşan eğitim belgeleri ekleyin. Veya alan date olarak adlandırılmışsa, rastgele dizeler model performansını etkileyebileceği için bu alanın değerleri bir tarih olmalıdır.

  • Alan adlandırma. Alan değerlerini temsil eden kesin bir alan adı seçin. Örneğin, İşlem Tarihini içeren bir alan değeri için yerine TransactionDate Date1alanını adlandırmayı göz önünde bulundurun.

  • Alan Açıklaması. Ayıklanması gereken alanı netleştirmeye yardımcı olmak için açıklamada daha bağlamsal bilgiler sağlayın. Örnek olarak belgedeki konum, ilişkilendirilebileceği olası alan etiketleri ve belirsiz olabilecek diğer terimlerle ayırt etmenin yolları verilebilir.

  • Çeşitleme. Özel üretken modeller, aynı belge türündeki farklı belge şablonları arasında genelleştirebilir. En iyi yöntem olarak, belge türünün tüm varyasyonları için tek bir model oluşturun. Belge oluşturma veya işlemede modelin doğruluğunu ve tutarlılığını geliştirmek için, özellikle belirli biçimlendirme ve/veya yapısal öğeler gerektiren her tür için bir görsel şablon ekleyin.

Hizmet kılavuzu

  • Özel Oluşturucu önizleme modeli şu anda sabit tablo ve imza ayıklamayı desteklemez.

  • Aynı belgedeki çıkarım, çağrılar arasında biraz farklı sonuçlar verebilir ve geçerli GPT modellerde bilinen bir sınırlamadır.

  • Her alanın güvenilirlik puanları farklılık gösterebilir. Senaryonuz için güvenilirlik eşiklerini oluşturmak için temsilci verilerinizle test yapmanızı öneririz.

  • Özellikle tablosal alanlar için topraklama zorlayıcıdır ve bazı durumlarda mükemmel olmayabilir.

  • Büyük belgeler için gecikme süresi yüksektir ve önizlemede bilinen bir sınırlamadır.

  • Oluşturulan modeller özel üretken ayıklamayı desteklemez.

Model eğitma

Özel üretken modeller, sürüm ve sonraki modellerle 2024-07-31-preview kullanılabilir.

build operation Modeli eğitmek özelliğini desteklerbuildMode; özel bir üretici modeli eğitmek için olarak ayarlayın buildMode generative.


https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "generative",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Sonraki adımlar