Özel ayıklama modeli oluşturma ve eğitma

Bu içerik şunlar için geçerlidir:Checkmark v4.0 (önizleme) | Önceki sürümler:mavi onay işareti v3.1 (GA)mavi onay işareti v3.0 (GA) mavi onay işareti v2.1

Önemli

Özel üretken model eğitim davranışı, özel şablondan ve sinir modeli eğitiminden farklıdır. Aşağıdaki belgede yalnızca özel şablon ve sinir modelleri için eğitim yer alır. Özel oluşturucu hakkında yönergeler için bkz. özel üretici modeli

Belge Zekası özel modelleri, kullanmaya başlamak için birkaç eğitim belgesi gerektirir. En az beş belgeniz varsa, özel bir model eğitmeye başlayabilirsiniz. Özel şablon modeli (özel form) veya özel sinir modeli (özel belge) ya da özel şablon modeli (özel form) eğitebilirsiniz. Bu belge, özel modelleri eğitma işleminde size yol gösterir.

Özel model giriş gereksinimleri

İlk olarak, eğitim veri kümenizin Belge Zekası için giriş gereksinimlerini karşıladığından emin olun.

  • Desteklenen dosya biçimleri:

    Model PDF Resim:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Okundu
    Düzen ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Genel Belge
    Önceden oluşturulmuş
    Özel ayıklama
    Özel sınıflandırma ✔ (2024-07-31-preview, 2024-02-29-preview)
  • En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.

  • PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).

  • Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve 4 ücretsiz (F0) katman için MB'tır.

  • Görüntü boyutları 50 piksel x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.

  • PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.

  • Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, yaklaşık 150 nokta/inç (DPI) nokta metnine karşılık gelir 8 .

  • Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.

    • Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve 1 sinir modeli için GB'tır.

    • Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile GB'tır 1 . 2024-07-31-preview ve üzeri sürümler için eğitim verilerinin toplam boyutu gb ve en fazla 10.000 sayfadır 2 .

Eğitim verileri ipuçları

Veri kümenizi eğitim için daha iyi hale getirmek üzere şu ipuçlarını izleyin:

  • Görüntü tabanlı belgeler yerine metin tabanlı PDF belgeleri kullanın. Taranan PDF'ler görüntü olarak işlenir.
  • Giriş alanları olan formlar için tüm alanların tamamlandığı örnekleri kullanın.
  • Her alanda farklı değerlere sahip olan formlar kullanın.
  • Form görüntüleriniz daha düşük kalitedeyse daha büyük bir veri kümesi (10-15 resim) kullanın.

Eğitim verilerinizi karşıya yükleme

Eğitim için bir form veya belge kümesi topladıktan sonra, bunu bir Azure blob depolama kapsayıcısına yüklemeniz gerekir. Kapsayıcı ile Azure depolama hesabı oluşturmayı bilmiyorsanız, Azure portalı için Azure Depolama hızlı başlangıcını izleyin. Ücretsiz fiyatlandırma katmanını (F0) kullanarak hizmeti deneyebilir ve daha sonra üretim için ücretli bir katmana yükseltebilirsiniz.

Video: Özel modelinizi eğitme

  • Eğitim veri kümenizi toplayıp karşıya yükledikten sonra özel modelinizi eğitmeye hazırsınız demektir. Aşağıdaki videoda bir proje oluşturacak ve bir modeli başarıyla etiketlemek ve eğitecek bazı temelleri keşfedeceğiz.

Document Intelligence Studio'da proje oluşturma

Document Intelligence Studio, veri kümenizi tamamlamak ve modelinizi eğitmek için gereken tüm API çağrılarını sağlar ve düzenler.

  1. Başlangıç olarak Document Intelligence Studio'ya geçin. Studio'yu ilk kez kullandığınızda aboneliğinizi, kaynak grubunuzu ve kaynağınızı başlatmanız gerekir. Ardından, özel projelerin önkoşullarını izleyerek Studio'yu eğitim veri kümenize erişecek şekilde yapılandırın.

  2. Studio'da Özel ayıklama modeli kutucuğunu seçin ve Proje oluştur düğmesini seçin.

    Document Intelligence Studio'da proje oluşturma işleminin ekran görüntüsü.

    1. İletişim kutusunda create project projeniz için isteğe bağlı olarak bir açıklama girin ve Devam'ı seçin.

    2. İş akışının sonraki adımında Devam'ı seçmeden önce bir Belge Yönetim Bilgileri kaynağı seçin veya oluşturun.

    Önemli

    Özel nöral modeller yalnızca birkaç bölgede kullanılabilir. Bir sinir modelini eğit almayı planlıyorsanız lütfen bu desteklenen bölgelerden birinde bir kaynak seçin veya oluşturun.

    Belge Yönetim Bilgileri kaynağını seçme işleminin ekran görüntüsü.

  3. Ardından özel model eğitim veri kümenizi karşıya yüklemek için kullandığınız depolama hesabını seçin. Eğitim belgeleriniz kapsayıcının kökündeyse Klasör yolu boş olmalıdır. Belgeleriniz bir alt klasördeyse, Klasör yolu alanına kapsayıcı kökünden göreli yolu girin. Depolama hesabınız yapılandırıldıktan sonra Devam'ı seçin.

    Depolama hesabını seçin öğesinin ekran görüntüsü.

  4. Son olarak proje ayarlarınızı gözden geçirin ve Proje Oluştur'u seçerek yeni bir proje oluşturun. Şimdi etiketleme penceresinde olmanız ve veri kümenizdeki dosyaların listelendiğini görmeniz gerekir.

Verilerinizi etiketleme

Projenizde ilk göreviniz veri kümenizi ayıklamak istediğiniz alanlarla etiketlemektir.

Depolama alanına yüklediğiniz dosyalar, ekranınızın sol tarafında listelenir ve ilk dosya etiketlenmeye hazır olur.

  1. Ekranın sağ üst kısmındaki artı (➕) düğmesini seçerek veri kümenizi etiketlemeye ve ilk alanınızı oluşturmaya başlayın.

    Etiket oluştur'un ekran görüntüsü.

  2. Alan için bir ad girin.

  3. Belgede bir sözcük veya sözcük seçerek alana bir değer atayın. Açılan listeden veya sağ gezinti çubuğundaki alan listesinden alanı seçin. Etiketlenen değer, alan listesindeki alan adının altındadır.

  4. Veri kümeniz için etiketlemek istediğiniz tüm alanlar için işlemi yineleyin.

  5. Her belgeyi seçip etiketlenecek metni seçerek veri kümenizdeki kalan belgeleri etiketle.

Artık veri kümenizdeki tüm belgeler etiketlenmiştir. .labels.json ve .ocr.json dosyaları, eğitim veri kümenizdeki her belgeye ve yeni bir fields.json dosyasına karşılık gelir. Bu eğitim veri kümesi modeli eğitmek için gönderilir.

Modelinizi eğitme

Veri kümeniz etiketlenmiş durumdayken artık modelinizi eğitmeye hazırsınız. Sağ üst köşedeki tren düğmesini seçin.

  1. Modeli eğit iletişim kutusunda benzersiz bir model kimliği ve isteğe bağlı olarak bir açıklama girin. Model kimliği bir dize veri türünü kabul eder.

  2. Derleme modu için eğitmek istediğiniz model türünü seçin. Model türleri ve özellikleri hakkında daha fazla bilgi edinin.

    Modeli eğit iletişim kutusunun ekran görüntüsü.

  3. Eğitim işlemini başlatmak için Eğit'i seçin.

  4. Şablon modelleri birkaç dakika içinde eğitildi. Sinir modellerinin eğitilmiş olması 30 dakika kadar sürebilir.

  5. Tren işleminin durumunu görüntülemek için Modeller menüsüne gidin.

Modeli test etme

Model eğitimi tamamlandıktan sonra model listesi sayfasında modeli seçerek modelinizi test edebilirsiniz.

  1. Modeli seçin ve Test düğmesini seçin.

  2. + Add Modeli test etmek için bir dosya seçmek için düğmesini seçin.

  3. Bir dosya seçiliyken, modeli test etmek için Çözümle düğmesini seçin.

  4. Model sonuçları ana pencerede görüntülenir ve ayıklanan alanlar sağ gezinti çubuğunda listelenir.

  5. Her alanın sonuçlarını değerlendirerek modelinizi doğrulayın.

  6. Sağ gezinti çubuğunda ayrıca modelinizi çağırmak için örnek kod ve API'den JSON sonuçları bulunur.

Tebrikler, Document Intelligence Studio'da özel bir model eğitmeye çalıştınız! Modeliniz, belgeleri analiz etmek için REST API veya SDK ile kullanıma hazırdır.

Şunlar için geçerlidir: Belge Yönetim Bilgileri v2.1 onay işareti v2.1. Diğer sürümler: v3.0

Belge Zekası özel modelini kullandığınızda, modelin sektöre özgü formlarınıza eğitebilmesi için Özel Modeli Eğit işlemine kendi eğitim verilerinizi sağlarsınız. Modeli etkili bir şekilde eğitmek için veri toplamayı ve hazırlamayı öğrenmek için bu kılavuzu izleyin.

Aynı türde en az beş tamamlanmış form gerekir.

El ile etiketlenmiş eğitim verilerini kullanmak istiyorsanız, aynı türde en az beş tamamlanmış formla başlamalısınız. Gerekli veri kümesine ek olarak etiketlenmemiş formları kullanmaya devam edebilirsiniz.

Özel model giriş gereksinimleri

İlk olarak, eğitim veri kümenizin Belge Zekası için giriş gereksinimlerini karşıladığından emin olun.

  • Desteklenen dosya biçimleri:

    Model PDF Resim:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Okundu
    Düzen ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Genel Belge
    Önceden oluşturulmuş
    Özel ayıklama
    Özel sınıflandırma ✔ (2024-07-31-preview, 2024-02-29-preview)
  • En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.

  • PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).

  • Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve 4 ücretsiz (F0) katman için MB'tır.

  • Görüntü boyutları 50 piksel x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.

  • PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.

  • Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, yaklaşık 150 nokta/inç (DPI) nokta metnine karşılık gelir 8 .

  • Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.

    • Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve 1 sinir modeli için GB'tır.

    • Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile GB'tır 1 . 2024-07-31-preview ve üzeri sürümler için eğitim verilerinin toplam boyutu gb ve en fazla 10.000 sayfadır 2 .

Eğitim verileri ipuçları

Veri kümenizi eğitim için daha iyi hale getirmek için bu ipuçlarını izleyin.

  • Görüntü tabanlı belgeler yerine metin tabanlı PDF belgeleri kullanın. Taranan PDF'ler görüntü olarak işlenir.
  • Tamamlanmış formlar için tüm alanlarının doldurulduğu örnekleri kullanın.
  • Her alanda farklı değerlere sahip olan formlar kullanın.
  • Tamamlanmış formlar için daha büyük bir veri kümesi (10-15 resim) kullanın.

Eğitim verilerinizi karşıya yükleme

Eğitim için belge kümesini topladıktan sonra bir Azure blob depolama kapsayıcısına yüklemeniz gerekir. Kapsayıcıyla Azure depolama hesabı oluşturmayı bilmiyorsanız Azure portalı için Azure Depolama hızlı başlangıcını izleyin. Standart performans katmanını kullanın.

El ile etiketlenmiş verileri kullanmak istiyorsanız, eğitim belgelerinize karşılık gelen .labels.json ve .ocr.json dosyalarını karşıya yükleyin. Bu dosyaları oluşturmak için Örnek Etiketleme aracını (veya kendi kullanıcı arabiriminizi) kullanabilirsiniz.

Verilerinizi alt klasörlerde düzenleme (isteğe bağlı)

Varsayılan olarak, Özel Modeli Eğit API'sinde yalnızca depolama kapsayıcınızın kökünde bulunan belgeler kullanılır. Ancak, API çağrısında belirtirseniz alt klasörlerdeki verilerle eğitebilirsiniz. Normalde, Özel Modeli Eğit çağrısının gövdesi aşağıdaki biçime sahiptir; burada <SAS URL> kapsayıcınızın Paylaşılan erişim imzası URL'si olur:

{
  "source":"<SAS URL>"
}

İstek gövdesine aşağıdaki içeriği eklerseniz, API alt klasörlerde bulunan belgelerle eğitilmiş olur. bu "prefix" alan isteğe bağlıdır ve eğitim veri kümesini yolları verilen dizeyle başlayan dosyalarla sınırlar. Örneğin değerinin "Test"olması, API'nin yalnızca Test sözcüğüyle başlayan dosya veya klasörlere bakabilmesine neden olur.

{
  "source": "<SAS URL>",
  "sourceFilter": {
    "prefix": "<prefix string>",
    "includeSubFolders": true
  },
  "useLabelFile": false
}

Sonraki adımlar

Eğitim veri kümesi oluşturmayı öğrendiğinize göre, özel bir Belge Yönetim Bilgileri modelini eğitmek ve formlarınızda kullanmaya başlamak için hızlı başlangıcı izleyin.

Ayrıca bkz.