Wyodrębnianie pól dokumentów — niestandardowy model AI generowania

Artykuł
09/02/2024

Ważne

Publiczne wersje zapoznawcze analizy dokumentów zapewniają wczesny dostęp do funkcji, które są aktywnie opracowywane. Funkcje, podejścia i procesy mogą ulec zmianie przed ogólną dostępnością na podstawie opinii użytkowników.
Publiczna wersja zapoznawcza bibliotek klienckich analizy dokumentów jest domyślna dla interfejsu API REST w wersji 2024-07-31-preview i jest obecnie dostępna tylko w następujących regionach świadczenia usługi Azure.
- Wschodnie stany USA
- Zachodnie stany USA 2
- Europa Zachodnia
- Północno-środkowe stany USA
Nowy niestandardowy model generowania w programie AI Studio jest dostępny tylko w regionie Północno-środkowe stany USA:

Model wyodrębniania pól dokumentów (niestandardowego generowania sztucznej inteligencji) wykorzystuje generowanie sztucznej inteligencji do wyodrębniania pól określonych przez użytkownika z dokumentów w wielu różnych szablonach wizualnych. Niestandardowy model generowania sztucznej inteligencji łączy możliwości interpretacji dokumentów z dużymi modelami językowymi (LLMs) oraz rygorem i schematem z niestandardowych możliwości wyodrębniania w celu utworzenia modelu o wysokiej dokładności w ciągu kilku minut. Za pomocą tego typu modelu generowania można rozpocząć od jednego dokumentu i przejść przez proces dodawania schematu i tworzenia modelu z minimalnym etykietowaniem. Niestandardowy model generowania umożliwia deweloperom i przedsiębiorstwom łatwe automatyzowanie przepływów pracy wyodrębniania danych z większą dokładnością i szybkością dla dowolnego typu dokumentu. Niestandardowy model generowania sztucznej inteligencji wyróżnia się w wyodrębnieniu prostych pól z dokumentów bez oznaczonych etykietami przykładów. Jednak udostępnienie kilku oznaczonych etykietami próbek zwiększa dokładność wyodrębniania dla złożonych pól i pól zdefiniowanych przez użytkownika, takich jak tabele. Za pomocą interfejsu API REST lub bibliotek klienckich można przesłać dokument do analizy za pomocą kompilacji modelu i użyć niestandardowego procesu generowania.

Niestandardowe korzyści z generowania modelu sztucznej inteligencji

Automatyczne etykietowanie. Korzystanie z dużych modeli językowych (LLM) i wyodrębnianie pól określonych przez użytkownika dla różnych typów dokumentów i szablonów wizualizacji.
Ulepszona uogólnienie. Wyodrębnij dane z danych bez struktury i różne szablony dokumentów o wyższej dokładności.
Uziemione wyniki. Lokalizowanie danych wyodrębnionych w dokumentach. Niestandardowe modele generowania uziemiły wyniki w stosownych przypadkach, zapewniając generowanie odpowiedzi na podstawie zawartości i włączanie przepływów pracy przeglądu przez człowieka.
Wyniki ufności. Użyj współczynników ufności dla każdego wyodrębnionego pola, aby filtrować wyodrębnione dane o wysokiej jakości, maksymalizuj je bezpośrednio przez przetwarzanie dokumentów i minimalizuj koszty przeglądu przez człowieka.

Typowe przypadki użycia

Zarządzanie cyklem życia kontraktu. Utwórz model generowania i wyodrębnij pola, klauzule i zobowiązania z szerokiej gamy typów kontraktów.
Pożyczki i wnioski hipoteczne. Automatyzacja procesu składania pożyczek i kredytów hipotecznych umożliwia bankom, kredytodawcom i podmiotom rządowymi szybkie przetwarzanie pożyczek i wniosków hipotecznych.
Usługi finansowe. Za pomocą niestandardowego modelu sztucznej inteligencji można analizować złożone dokumenty, takie jak raporty finansowe i raporty zarządzania zasobami.
Zarządzanie wydatkami. W celu zweryfikowania wydatków należy przeanalizować wpływy i faktury od różnych sprzedawców detalicznych i firm. Niestandardowy model generowania sztucznej inteligencji może wyodrębnić wydatki w różnych formatach i dokumentach z różnymi szablonami.

Zarządzanie zestawem danych szkoleniowych

W przypadku innych modeli niestandardowych należy zachować zestaw danych, dodać nowe przykłady i wytrenować model pod kątem ulepszeń dokładności. W przypadku niestandardowego modelu generowania sztucznej inteligencji dokumenty oznaczone etykietami są przekształcane, szyfrowane i przechowywane w ramach modelu. Ten proces gwarantuje, że model może stale używać oznaczonych próbek, aby poprawić jakość wyodrębniania. Podobnie jak w przypadku innych modeli niestandardowych, modele są przechowywane w magazynie firmy Microsoft i można je usunąć w dowolnym momencie.

Usługa analizy dokumentów zarządza zestawami danych, ale dokumenty są przechowywane jako zaszyfrowane i używane tylko do ulepszania wyników modelu dla określonego modelu. Klucz zarządzany przez usługę może służyć do szyfrowania danych lub można go opcjonalnie zaszyfrować przy użyciu klucza zarządzanego przez klienta. Zmiana zarządzania i cyklu życia zestawu danych dotyczy tylko niestandardowych modeli generowania.

Możliwości modelu

Niestandardowy model generowania pól obsługuje obecnie tabelę dynamiczną z następującymi 2024-07-31-preview polami:

Pola formularza	Znaczniki zaznaczenia	Pola tabelaryczne	Podpis	Etykietowanie regionów	Nakładające się pola
Obsługiwane	Obsługiwane	Obsługiwane	Nieobsługiwane	Nieobsługiwane	Obsługiwane

Tryb kompilacji

Operacja build custom model obsługuje niestandardowe szablony, neuronowe i generowanie modeli. ZobaczTryb kompilacji modelu niestandardowego. Poniżej przedstawiono różnice w typach modeli:

Niestandardowe modele generowania sztucznej inteligencji mogą przetwarzać złożone dokumenty w różnych formatach, różnych szablonach i danych bez struktury.
Niestandardowe modele neuronowe obsługują złożone przetwarzanie dokumentów, a także obsługują większą wariancję na stronach dla dokumentów ustrukturyzowanych i częściowo ustrukturyzowanych.
Niestandardowe modele szablonów opierają się na spójnych szablonach wizualnych, takich jak kwestionariusze lub aplikacje, aby wyodrębnić oznaczone dane.

Obsługa języków i ustawień regionalnych

Wersja niestandardowego modelu 2024-07-31-preview generowania pól obsługuje ustawienia regionalne en-us . Aby uzyskać więcej informacji na temat obsługi języka, zobacz Obsługa języka — modele niestandardowe.

Obsługa regionów

Wersja niestandardowego modelu 2024-07-31-preview generowania pól jest dostępna tylko w programie North Central US.

Wymagania dotyczące danych wejściowych

Obsługiwane formaty plików:

Model	PDF	Obraz: `JPEG/JPG`, , `BMPPNG`, , `TIFFHEIF`	Microsoft Office: Word (), Excel (`XLSXDOCX`), PowerPoint (`PPTX`), HTML
Przeczytaj	✔	✔	✔
Układ	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
Dokument ogólny	✔	✔
Wstępnie utworzona	✔	✔
Niestandardowe wyodrębnianie	✔	✔
Klasyfikacja niestandardowa	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview)

Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.
W przypadku plików PDF i TIFF można przetworzyć maksymalnie 2000 stron (w przypadku subskrypcji warstwy Bezpłatna przetwarzane są tylko pierwsze dwie strony).
Rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB za bezpłatną (F0).
Wymiary obrazu muszą mieć od 50 pikseli x 50 pikseli do 10 000 pikseli x 10 000 pikseli.
Jeśli pliki PDF są zablokowane hasłem, przed ich przesłaniem usuń blokadę.
Minimalna wysokość tekstu do wyodrębnienia to 12 pikseli dla obrazu o rozmiarze 1024 x 768 pikseli. Ten wymiar odpowiada tekstowi 8 punktowemu na 150 kropek na cal (DPI).
W przypadku trenowania modelu niestandardowego maksymalna liczba stron dla danych szkoleniowych wynosi 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.
- W przypadku trenowania niestandardowego modelu wyodrębniania łączny rozmiar danych treningowych wynosi 50 MB dla modelu szablonu i 1 GB dla modelu neuronowego.
- W przypadku trenowania niestandardowego modelu klasyfikacji całkowity rozmiar danych treningowych wynosi 1 GB z maksymalnie 10 000 stron. W przypadku wersji 2024-07-31-preview i nowszych łączny rozmiar danych treningowych wynosi 2 GB z maksymalnie 10 000 stron.

Najlepsze rozwiązania

Reprezentatywne dane. Użyj reprezentatywnych dokumentów przeznaczonych dla rzeczywistego rozkładu danych i wytrenuj niestandardowy model generowania o wysokiej jakości. Jeśli na przykład dokument docelowy zawiera częściowo wypełnione pola tabelaryczne, dodaj dokumenty szkoleniowe składające się z częściowo wypełnionych tabel. Lub jeśli pole ma nazwę date, wartości dla tego pola powinny być datą, ponieważ losowe ciągi mogą mieć wpływ na wydajność modelu.
Nazewnictwo pól. Wybierz dokładną nazwę pola reprezentującą wartości pól. Na przykład w przypadku wartości pola zawierającej datę transakcji rozważ nadanie nazwy pole TransactionDate zamiast Date1.
Opis pola. Podaj więcej informacji kontekstowych w opisie, aby ułatwić wyjaśnienie pola, które należy wyodrębnić. Przykłady obejmują lokalizację w dokumencie, potencjalne etykiety pól, z którymi można skojarzyć, oraz sposoby rozróżniania innych terminów, które mogą być niejednoznaczne.
Odmiana. Niestandardowe modele generowania mogą uogólniać różne szablony dokumentów tego samego typu dokumentu. Najlepszym rozwiązaniem jest utworzenie pojedynczego modelu dla wszystkich odmian typu dokumentu. W idealnym przypadku należy uwzględnić szablon wizualizacji dla każdego typu, zwłaszcza w przypadku tych, które obejmują odrębne formatowanie lub elementy strukturalne, aby poprawić dokładność i spójność modelu w generowaniu lub przetwarzaniu dokumentów.

Wskazówki dotyczące usługi

Niestandardowy model generowania w wersji zapoznawczej nie obsługuje obecnie stałego wyodrębniania tabel i podpisów.
Wnioskowanie na tym samym dokumencie może przynieść nieco inne wyniki między wywołaniami i jest znanym ograniczeniem bieżących GPT modeli.
Wyniki ufności dla każdego pola mogą się różnić. Zalecamy przetestowanie danych reprezentatywnych w celu ustalenia progów ufności dla danego scenariusza.
Uziemienia, zwłaszcza w przypadku pól tabelarycznych, jest trudne i może nie być idealne w niektórych przypadkach.
Opóźnienie dużych dokumentów jest wysokie i znane ograniczenie w wersji zapoznawczej.
Modele złożone nie obsługują niestandardowego wyodrębniania generowania.

Trenowanie modelu

Niestandardowe modele generowania są dostępne w 2024-07-31-preview wersji i nowszych modelach.

Aby build operation wytrenować model, obsługuje buildMode właściwość , aby wytrenować niestandardowy model generowania, ustaw wartość buildMode generative.


https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "generative",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Następne kroki

Dowiedz się, jak tworzyć niestandardowe modele generowania
Dowiedz się więcej o modelach niestandardowych

Udostępnij za pośrednictwem