Belge Yönetim Bilgileri düzen modeli
Önemli
- Document Intelligence genel önizleme sürümleri, etkin geliştirme aşamasında olan özelliklere erken erişim sağlar. Genel Kullanılabilirlik (GA) öncesinde kullanıcı geri bildirimlerine göre özellikler, yaklaşımlar ve süreçler değişebilir.
- Belge Zekası istemci kitaplıklarının genel önizleme sürümü varsayılan olarak REST API sürüm 2024-07-31-preview'dır.
- Genel önizleme sürümü 2024-07-31-preview şu anda yalnızca aşağıdaki Azure bölgelerinde kullanılabilir. AI Studio'daki özel oluşturucu (belge alanı ayıklama) modelinin yalnızca Orta Kuzey ABD bölgesinde kullanılabildiğini unutmayın:
- Doğu ABD
- Batı ABD2
- Batı Avrupa
- Orta Kuzey ABD
Bu içerik şunlar için geçerlidir: v4.0 (önizleme) | Önceki sürümler: v3.1 (GA) v3.0 (GA) v2.1 (GA)
Belge Zekası düzen modeli, Belge Zekası bulutunda kullanılabilen gelişmiş bir makine öğrenmesi tabanlı belge analizi API'sidir. Belgeleri çeşitli biçimlerde almanıza ve belgelerin yapılandırılmış veri gösterimlerini döndürmenize olanak tanır. Metinleri, tabloları, seçim işaretlerini ve belge yapısını ayıklamak için güçlü Optik Karakter Tanıma (OCR) özelliklerimizin gelişmiş bir sürümünü derin öğrenme modelleriyle birleştirir.
Belge düzeni analizi (v4)
Belge yapısı düzen analizi, ilgilendiğiniz bölgeleri ve aralarındaki ilişkileri ayıklamak için bir belgeyi analiz etme işlemidir. Amaç, daha iyi anlamsal anlayış modelleri oluşturmak için sayfadan metin ve yapısal öğeleri ayıklamaktır. Belge düzeninde iki tür rol vardır:
- Geometrik roller: Metin, tablolar, şekiller ve seçim işaretleri geometrik rollere örnektir.
- Mantıksal roller: Başlıklar, başlıklar ve alt bilgiler, metinlerin mantıksal rollerine örnektir.
Aşağıdaki çizimde örnek bir sayfanın görüntüsündeki tipik bileşenler gösterilmektedir.
Geliştirme seçenekleri (v4)
Document Intelligence v4.0 (2024-07-31-preview) aşağıdaki araçları, uygulamaları ve kitaplıkları destekler:
Özellik | Kaynaklar | Model Kimliği |
---|---|---|
Düzen modeli | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
önceden oluşturulmuş düzen |
Giriş gereksinimleri (v4)
Desteklenen dosya biçimleri:
Model PDF Resim: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLOkundu ✔ ✔ ✔ Düzen ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Genel Belge ✔ ✔ Önceden oluşturulmuş ✔ ✔ Özel ayıklama ✔ ✔ Özel sınıflandırma ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.
PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).
Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve
4
ücretsiz (F0) katman için MB'tır.Görüntü boyutları 50 piksel x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.
PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.
Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, yaklaşık 150 nokta/inç (DPI) nokta metnine karşılık gelir
8
.Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.
Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve
1
sinir modeli için GB'tır.Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile GB'tır
1
. 2024-07-31-preview ve üzeri sürümler için eğitim verilerinin toplam boyutu gb ve en fazla 10.000 sayfadır2
.
Düzen modelini kullanmaya başlama
Metin, tablo, tablo üst bilgileri, seçim işaretleri ve yapı bilgileri gibi verilerin Belge Yönetim Bilgileri kullanılarak belgelerden nasıl ayıklandığına bakın. Aşağıdaki kaynaklara ihtiyacınız vardır:
Azure aboneliği: Ücretsiz olarak bir abonelik oluşturabilirsiniz.
Azure portalında bir Belge Zekası örneği. Hizmeti denemek için ücretsiz fiyatlandırma katmanını (
F0
) kullanabilirsiniz. Kaynağınız dağıtıldıktan sonra anahtarınızı ve uç noktanızı almak için Kaynağa git'i seçin.
Not
Document Intelligence Studio, v3.0 API'leri ve sonraki sürümlerle kullanılabilir.
Document Intelligence Studio ile işlenen örnek belge
Document Intelligence Studio giriş sayfasında Düzen'i seçin.
Örnek belgeyi analiz edebilir veya kendi dosyalarınızı karşıya yükleyebilirsiniz.
Analizi çalıştır düğmesini seçin ve gerekirse Çözümle seçeneklerini yapılandırın:
Document Intelligence Studio'yu deneyin.
Desteklenen diller ve yerel ayarlar (ocr)
Desteklenen dillerin tam listesi için Dil Desteği— belge çözümleme modelleri sayfamıza bakın.
Veri ayıklama (v4)
Düzen modeli belgelerinizden metinleri, seçim işaretlerini, tabloları, paragrafları ve paragraf türlerini (roles
) ayıklar.
Not
, 2023-10-31-preview
ve sonraki sürümleri 2024-02-29-preview
Microsoft office (DOCX, XLSX, PPTX) ve HTML dosyalarını destekler. Aşağıdaki özellikler desteklenmez:
- Her sayfa nesnesiyle açı, genişlik/yükseklik ve birim yoktur.
- Algılanan her nesne için sınırlayıcı çokgen veya sınırlayıcı bölge yoktur.
- Sayfa aralığı (
pages
) parametre olarak desteklenmez. - Nesne yok
lines
.
Sayfalar
Sayfalar koleksiyonu, belgedeki sayfaların listesidir. Her sayfa, belge içinde sıralı olarak temsil edilir ve .. /, sayfanın döndürülmüş olup olmadığını ve genişlik ve yüksekliği (piksel cinsinden boyutlar) gösteren yönlendirme açısını içerir. Model çıkışındaki sayfa birimleri gösterildiği gibi hesaplanır:
Dosya biçimi | Hesaplanan sayfa birimi | Toplam sayfa sayısı |
---|---|---|
Görüntüler (JPEG/JPG, PNG, BMP, HEIF) | Her resim = 1 sayfa birimi | Toplam resim sayısı |
PDF ' deki her sayfa = 1 sayfa birimi | PDF'deki toplam sayfa sayısı | |
TIFF | TIFF = 1 sayfa birimindeki her resim | TIFF'deki toplam görüntü sayısı |
Word (DOCX) | En fazla 3.000 karakter = 1 sayfa birimi, eklenmiş veya bağlantılı görüntüler desteklenmez | Her biri en fazla 3.000 karakterden oluşan toplam sayfa sayısı |
Excel (XLSX) | Her çalışma sayfası = 1 sayfa birimi, eklenmiş veya bağlı görüntüler desteklenmez | Toplam çalışma sayfası |
PowerPoint (PPTX) | Her slayt = 1 sayfalık birim, eklenmiş veya bağlı görüntüler desteklenmez | Toplam slayt sayısı |
HTML | En fazla 3.000 karakter = 1 sayfa birimi, eklenmiş veya bağlantılı görüntüler desteklenmez | Her biri en fazla 3.000 karakterden oluşan toplam sayfa sayısı |
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")
Seçili sayfaları belgelerden ayıklama
Çok sayfalı büyük belgeler için, belirli sayfa numaralarını veya metin ayıklama için sayfa aralıklarını belirtmek üzere sorgu parametresini kullanın pages
.
Paragraf
Düzen modeli, koleksiyondaki paragraphs
tanımlanan tüm metin bloklarını altında analyzeResults
en üst düzey nesne olarak ayıklar. Bu koleksiyondaki her girdi bir metin bloğunu ve .. /, ayıklanan metni olarakcontent
ve sınırlayıcı polygon
koordinatları içerir. Bilgiler, span
belgenin tam metnini içeren en üst düzey content
özellik içindeki metin parçasına işaret eder.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Paragraf rolleri
Yeni makine öğrenmesi tabanlı sayfa nesnesi algılama, başlıklar, bölüm başlıkları, sayfa üst bilgileri, sayfa alt bilgileri ve daha fazlası gibi mantıksal rolleri ayıklar. Belge Yönetim Bilgileri Düzeni modeli, koleksiyondaki paragraphs
belirli metin bloklarını model tarafından tahmin edilen özelleştirilmiş rolü veya türüyle atar. Daha zengin bir anlam analizi için ayıklanan içeriğin düzenini anlamanıza yardımcı olması için yapılandırılmamış belgelerle paragraf rollerini kullanmak en iyisidir. Aşağıdaki paragraf rolleri desteklenir:
Tahmin edilen rol | Açıklama | Desteklenen dosya türleri |
---|---|---|
title |
Sayfadaki ana başlıklar | pdf, image, docx, pptx, xlsx, html |
sectionHeading |
Sayfadaki bir veya daha fazla alt başlık | pdf, image, docx, xlsx, html |
footnote |
Sayfanın alt kısmındaki metin | pdf, resim |
pageHeader |
Sayfanın üst kenarına yakın metin | pdf, resim, docx |
pageFooter |
Sayfanın alt kenarına yakın metin | pdf, image, docx, pptx, html |
pageNumber |
Sayfa numarası | pdf, resim |
{
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"role": "title",
"content": "NEWS TODAY"
},
{
"spans": [],
"boundingRegions": [],
"role": "sectionHeading",
"content": "Mirjam Nilsson"
}
]
}
Metin, satır ve sözcükler
Belge Yönetim Bilgileri'ndeki belge düzeni modeli, yazdırma ve el yazısı stil metinlerini ve words
olarak lines
ayıklar. Koleksiyon styles
.. /, ilişkili metne işaret eden yayılma alanlarıyla birlikte algılanırsa satırlar için herhangi bir el yazısı stili içerir. Bu özellik desteklenen el yazısı diller için geçerlidir.
Microsoft Word, Excel, PowerPoint ve HTML için, Belge Zekası sürüm 2024-02-29-preview ve 2023-10-31-preview Düzen modeli tüm eklenmiş metni olduğu gibi ayıklar. Metinler sözcük ve paragraf olarak ayıklanır. Eklenmiş görüntüler desteklenmez.
# Analyze lines.
if page.lines:
for line_idx, line in enumerate(page.lines):
words = get_words(page, line)
print(
f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
f"within bounding polygon '{line.polygon}'"
)
# Analyze words.
for word in words:
print(f"......Word '{word.content}' has a confidence of {word.confidence}")
Metin satırları için el yazısı stili
Yanıt .. /, her metin satırının el yazısı stilinde olup olmadığını ve güvenilirlik puanını sınıflandırmayı içerir. Daha fazla bilgi için. Bkz. El yazısı dil desteği. Aşağıdaki örnekte örnek bir JSON kod parçacığı gösterilmektedir.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Yazı tipi/stil eklentisi özelliğini etkinleştirirseniz, nesnenin bir parçası styles
olarak yazı tipi/stil sonucunu da alırsınız.
Seçim işaretleri
Düzen modeli, belgelerden seçim işaretlerini de ayıklar. Ayıklanan seçim işaretleri her sayfa için koleksiyon içinde pages
görünür. Sınırlayıcı polygon
, confidence
ve seçimini state
(selected/unselected
) içerir. Metin gösterimi (yani :selected:
ve :unselected
) başlangıç dizini (offset
) olarak da eklenir ve length
belgenin tam metnini içeren en üst düzey content
özelliğe başvurur.
# Analyze selection marks.
if page.selection_marks:
for selection_mark in page.selection_marks:
print(
f"Selection mark is '{selection_mark.state}' within bounding polygon "
f"'{selection_mark.polygon}' and has a confidence of {selection_mark.confidence}"
)
Tablolar
Tabloları ayıklamak, genellikle tablo olarak biçimlendirilmiş büyük hacimli verileri içeren belgeleri işlemek için önemli bir gereksinimdir. Düzen modeli, JSON çıkışının pageResults
bölümündeki tabloları ayıklar. Ayıklanan tablo bilgileri.. /sütun ve satır sayısını, satır aralığını ve sütun aralığını içerir. Sınırlayıcı çokgeni olan her hücre, alanın bir columnHeader
olarak tanınıp tanınmadığı bilgisinin yanı sıra çıkıştır. Model, döndürülen tabloları ayıklamayı destekler. Her tablo hücresi satır ve sütun dizinini ve sınırlayıcı çokgen koordinatlarını içerir. Hücre metni için model, başlangıç dizinini span
(offset
) içeren bilgileri verir. Model, belgedeki tam metni içeren en üst düzey içeriğin içinde çıkışını da length
verir.
Belge Zekası balya ayıklama özelliğini kullanırken göz önünde bulundurmanız gereken birkaç faktör şunlardır:
Ayıklamak istediğiniz veriler tablo olarak sunuluyor mu ve tablo yapısı anlamlı mı?
Veriler tablo biçiminde değilse veriler iki boyutlu bir kılavuza sığabilir mi?
Tablolarınız birden çok sayfaya yayılsın mı? Bu durumda, tüm sayfaları etiketlemek zorunda kalmamak için Belge Yönetim Bilgileri'ne göndermeden önce PDF'yi sayfalara bölün. Analizden sonra sayfaları tek bir tabloya işleyin.
Özel modeller oluşturuyorsanız Tablosal alanlara bakın. Dinamik tabloların her sütun için değişken sayıda satırı vardır. Sabit tabloların her sütun için sabit sayıda satırı vardır.
Not
- Giriş dosyası XLSX ise tablo analizi desteklenmez.
- 2024-07-31-preview sürümünden itibaren, şekiller ve tablolar için sınırlayıcı bölgeler yalnızca temel içeriği kapsar ve ilişkili açıklamalı alt yazıları ve dipnotları dışlar.
if result.tables:
for table_idx, table in enumerate(result.tables):
print(f"Table # {table_idx} has {table.row_count} rows and " f"{table.column_count} columns")
if table.bounding_regions:
for region in table.bounding_regions:
print(f"Table # {table_idx} location on page: {region.page_number} is {region.polygon}")
# Analyze cells.
for cell in table.cells:
print(f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'")
if cell.bounding_regions:
for region in cell.bounding_regions:
print(f"...content on page {region.page_number} is within bounding polygon '{region.polygon}'")
Markdown biçiminde çıktı
Düzen API'si, ayıklanan metnin çıkışını markdown biçiminde verebilir. Markdown'da çıkış biçimini belirtmek için öğesini outputContentFormat=markdown
kullanın. Markdown içeriği, bölümün bir parçası olarak çıktılanır content
.
Not
2024-07-31-preview sürümünden başlayarak, birleştirilmiş hücrelerin, çok satırlı üst bilgilerin vb. işlenmesini sağlamak için tabloların gösterimi HTML tabloları olarak değiştirilir. İlgili bir diğer değişiklik de Unicode onay kutusu karakterleri ☒ kullanmak ve ☐ :selected: ve :unselected: yerine seçim işaretleri kullanmaktır. Bunun, seçim işareti alanlarının içeriğinin :selected değerini içereceği anlamına geldiğini unutmayın: bunların yayılma alanları üst düzey yayılma alanındaki Unicode karakterlerine başvuruda bulunsa bile.
document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
"prebuilt-layout",
AnalyzeDocumentRequest(url_source=url),
output_content_format=ContentFormat.MARKDOWN,
)
Rakam
Belgelerdeki şekiller (grafikler, resimler) metin içeriğinin tamamlanması ve geliştirilmesinde önemli bir rol oynar ve karmaşık bilgilerin anlaşılmasına yardımcı olan görsel gösterimler sağlar. Düzen modeli tarafından algılanan şekiller nesnesinin temel özellikleri boundingRegions
vardır (belge sayfalarındaki şeklin uzamsal konumları, sayfa numarası ve şeklin sınırını özetleyen çokgen koordinatlar dahil), spans
(şekille ilgili metin aralıklarının ayrıntıları, belgenin metni içindeki uzaklıklarını ve uzunluklarını belirtme. Bu bağlantı, şeklin ilgili metin bağlamıyla, elements
(belgedeki şekille ilgili veya açıklamalı metin öğelerinin veya paragrafların tanımlayıcıları) ve caption
varsa ilişkilendirmeye yardımcı olur.
İlk analiz işlemi sırasında output=figures belirtildiğinde, hizmet aracılığıyla /analyeResults/{resultId}/figures/{figureId}
erişilebilen tüm algılanan şekiller için kırpılmış görüntüler oluşturur.
FigureId
her şekil nesnesine eklenir ve sayfa başına bir taneye sıfırlandığına yönelik {pageNumber}.{figureIndex}
figureIndex
belgelenmemiş bir kurala uyar.
Not
2024-07-31-preview sürümünden itibaren, şekiller ve tablolar için sınırlayıcı bölgeler yalnızca temel içeriği kapsar ve ilişkili açıklamalı alt yazıları ve dipnotları dışlar.
# Analyze figures.
if result.figures:
for figures_idx,figures in enumerate(result.figures):
print(f"Figure # {figures_idx} has the following spans:{figures.spans}")
for region in figures.bounding_regions:
print(f"Figure # {figures_idx} location on page:{region.page_number} is within bounding polygon '{region.polygon}'")
Bölümler
Hiyerarşik belge yapısı analizi, kapsamlı belgelerin düzenlenmesi, anlaşılması ve işlenmesinde çok önemlidir. Bu yaklaşım, kavramayı artırmak, gezinmeyi kolaylaştırmak ve bilgi alımını geliştirmek için uzun belgeleri sembolik olarak segmentlere ayırmak için çok önemlidir. Belge oluşturucu yapay zekada Alma Artırılmış Neslinin (RAG) gelişi, hiyerarşik belge yapısı analizinin öneminin altını çizer. Düzen modeli, çıkıştaki bölümleri ve alt bölümleri destekler ve bu da her bölümdeki bölümlerin ve nesnenin ilişkisini tanımlar. Hiyerarşik yapı her bölümde korunur elements
. Markdown'da bölümleri ve alt bölümleri kolayca almak için markdown biçiminin çıktısını kullanabilirsiniz.
document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
"prebuilt-layout",
AnalyzeDocumentRequest(url_source=url),
output_content_format=ContentFormat.MARKDOWN,
)
Bu içerik şunlar için geçerlidir: v3.1 (GA) | En son sürüm: v4.0 (önizleme) | Önceki sürümler: v3.0 v2.1
Bu içerik şunlar için geçerlidir: v3.0 (GA) | En son sürümler: v4.0 (önizleme) v3.1 | Önceki sürüm: v2.1
Bu içerik şunlar için geçerlidir: v2.1 | En son sürüm: v4.0 (önizleme)
Belge Zekası düzen modeli, Belge Zekası bulutunda kullanılabilen gelişmiş bir makine öğrenmesi tabanlı belge analizi API'sidir. Belgeleri çeşitli biçimlerde almanıza ve belgelerin yapılandırılmış veri gösterimlerini döndürmenize olanak tanır. Metinleri, tabloları, seçim işaretlerini ve belge yapısını ayıklamak için güçlü Optik Karakter Tanıma (OCR) özelliklerimizin gelişmiş bir sürümünü derin öğrenme modelleriyle birleştirir.
Belge düzeni analizi
Belge yapısı düzen analizi, ilgilendiğiniz bölgeleri ve aralarındaki ilişkileri ayıklamak için bir belgeyi analiz etme işlemidir. Amaç, daha iyi anlamsal anlayış modelleri oluşturmak için sayfadan metin ve yapısal öğeleri ayıklamaktır. Belge düzeninde iki tür rol vardır:
- Geometrik roller: Metin, tablolar, şekiller ve seçim işaretleri geometrik rollere örnektir.
- Mantıksal roller: Başlıklar, başlıklar ve alt bilgiler, metinlerin mantıksal rollerine örnektir.
Aşağıdaki çizimde örnek bir sayfanın görüntüsündeki tipik bileşenler gösterilmektedir.
Dağıtım seçenekleri
Document Intelligence v3.1 aşağıdaki araçları, uygulamaları ve kitaplıkları destekler:
Özellik | Kaynaklar | Model Kimliği |
---|---|---|
Düzen modeli | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
önceden oluşturulmuş düzen |
Document Intelligence v3.0 aşağıdaki araçları, uygulamaları ve kitaplıkları destekler:
Özellik | Kaynaklar | Model Kimliği |
---|---|---|
Düzen modeli | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
önceden oluşturulmuş düzen |
Document Intelligence v2.1 aşağıdaki araçları, uygulamaları ve kitaplıkları destekler:
Özellik | Kaynaklar |
---|---|
Düzen modeli | • Belge Yönetim Bilgileri etiketleme aracı • REST API • İstemci kitaplığı SDK'sı • Belge Yönetim Bilgileri Docker kapsayıcısı |
Giriş gereksinimleri
Desteklenen dosya biçimleri:
Model PDF Resim: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLOkundu ✔ ✔ ✔ Düzen ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Genel Belge ✔ ✔ Önceden oluşturulmuş ✔ ✔ Özel ayıklama ✔ ✔ Özel sınıflandırma ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.
PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).
Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve
4
ücretsiz (F0) katman için MB'tır.Görüntü boyutları 50 piksel x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.
PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.
Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, yaklaşık 150 nokta/inç (DPI) nokta metnine karşılık gelir
8
.Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.
Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve
1
sinir modeli için GB'tır.Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile GB'tır
1
. 2024-07-31-preview ve üzeri sürümler için eğitim verilerinin toplam boyutu gb ve en fazla 10.000 sayfadır2
.
- Desteklenen dosya biçimleri: JPEG, PNG, PDF ve TIFF.
- Desteklenen sayfa sayısı: PDF ve TIFF için en fazla 2.000 sayfa işlenir. Ücretsiz katman aboneleri için yalnızca ilk iki sayfa işlenir.
- Desteklenen dosya boyutu: Dosya boyutu 50 MB'tan az ve boyutlar en az 50 x 50 piksel ve en fazla 10.000 x 10.000 piksel olmalıdır.
Düzen modelini kullanmaya başlama
Metin, tablo, tablo üst bilgileri, seçim işaretleri ve yapı bilgileri gibi verilerin Belge Yönetim Bilgileri kullanılarak belgelerden nasıl ayıklandığına bakın. Aşağıdaki kaynaklara ihtiyacınız vardır:
Azure aboneliği: Ücretsiz olarak bir abonelik oluşturabilirsiniz.
Azure portalında bir Belge Zekası örneği. Hizmeti denemek için ücretsiz fiyatlandırma katmanını (
F0
) kullanabilirsiniz. Kaynağınız dağıtıldıktan sonra anahtarınızı ve uç noktanızı almak için Kaynağa git'i seçin.
Not
Document Intelligence Studio, v3.0 API'leri ve sonraki sürümlerle kullanılabilir.
Document Intelligence Studio ile işlenen örnek belge
Document Intelligence Studio giriş sayfasında Düzen'i seçin.
Örnek belgeyi analiz edebilir veya kendi dosyalarınızı karşıya yükleyebilirsiniz.
Analizi çalıştır düğmesini seçin ve gerekirse Çözümle seçeneklerini yapılandırın:
Document Intelligence Studio'yu deneyin.
Belge Yönetim Bilgileri Örnek Etiketleme aracı
Örnek araç giriş sayfasında, Metin, tablo ve seçim işaretlerini almak için Düzeni Kullan'ı seçin.
Belge Yönetim Bilgileri hizmeti uç noktası alanına, Elde ettiğiniz uç noktayı Belge Yönetim Bilgileri aboneliğinizle yapıştırın.
Anahtar alanına, Belge Yönetim Bilgileri kaynağınızdan aldığınız anahtarı yapıştırın.
Kaynak alanında, açılan menüden URL'yi seçin Örnek belgemizi kullanabilirsiniz:
Getir düğmesini seçin.
Düzeni Çalıştır'ı seçin. Belge Yönetim Bilgileri Örnek Etiketleme aracı, belgeyi
Analyze Layout
analiz etmek için API'yi çağırır.Sonuçları görüntüleme - vurgulanan ayıklanan metinlere, algılanan seçim işaretlerine ve algılanan tablolara bakın.
Desteklenen diller ve yerel ayarlar
Desteklenen dillerin tam listesi için Dil Desteği— belge çözümleme modelleri sayfamıza bakın.
Document Intelligence v2.1 aşağıdaki araçları, uygulamaları ve kitaplıkları destekler:
Özellik | Kaynaklar |
---|---|
Düzen API'si | • Belge Yönetim Bilgileri etiketleme aracı • REST API • İstemci kitaplığı SDK'sı • Belge Yönetim Bilgileri Docker kapsayıcısı |
Veri ayıklama
Düzen modeli belgelerinizden metinleri, seçim işaretlerini, tabloları, paragrafları ve paragraf türlerini (roles
) ayıklar.
Not
, 2023-10-31-preview
ve sonraki sürümleri 2024-02-29-preview
Microsoft office (DOCX, XLSX, PPTX) ve HTML dosyalarını destekler. Aşağıdaki özellikler desteklenmez:
- Her sayfa nesnesiyle açı, genişlik/yükseklik ve birim yoktur.
- Algılanan her nesne için sınırlayıcı çokgen veya sınırlayıcı bölge yoktur.
- Sayfa aralığı (
pages
) parametre olarak desteklenmez. - Nesne yok
lines
.
Sayfalar
Sayfalar koleksiyonu, belgedeki sayfaların listesidir. Her sayfa, belge içinde sıralı olarak temsil edilir ve .. /, sayfanın döndürülmüş olup olmadığını ve genişlik ve yüksekliği (piksel cinsinden boyutlar) gösteren yönlendirme açısını içerir. Model çıkışındaki sayfa birimleri gösterildiği gibi hesaplanır:
Dosya biçimi | Hesaplanan sayfa birimi | Toplam sayfa sayısı |
---|---|---|
Görüntüler (JPEG/JPG, PNG, BMP, HEIF) | Her resim = 1 sayfa birimi | Toplam resim sayısı |
PDF ' deki her sayfa = 1 sayfa birimi | PDF'deki toplam sayfa sayısı | |
TIFF | TIFF = 1 sayfa birimindeki her resim | TIFF'deki toplam görüntü sayısı |
Word (DOCX) | En fazla 3.000 karakter = 1 sayfa birimi, eklenmiş veya bağlantılı görüntüler desteklenmez | Her biri en fazla 3.000 karakterden oluşan toplam sayfa sayısı |
Excel (XLSX) | Her çalışma sayfası = 1 sayfa birimi, eklenmiş veya bağlı görüntüler desteklenmez | Toplam çalışma sayfası |
PowerPoint (PPTX) | Her slayt = 1 sayfalık birim, eklenmiş veya bağlı görüntüler desteklenmez | Toplam slayt sayısı |
HTML | En fazla 3.000 karakter = 1 sayfa birimi, eklenmiş veya bağlantılı görüntüler desteklenmez | Her biri en fazla 3.000 karakterden oluşan toplam sayfa sayısı |
"pages": [
{
"pageNumber": 1,
"angle": 0,
"width": 915,
"height": 1190,
"unit": "pixel",
"words": [],
"lines": [],
"spans": []
}
]
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(
f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
)
Seçili sayfaları belgelerden ayıklama
Çok sayfalı büyük belgeler için, belirli sayfa numaralarını veya metin ayıklama için sayfa aralıklarını belirtmek üzere sorgu parametresini kullanın pages
.
Paragraf
Düzen modeli, koleksiyondaki paragraphs
tanımlanan tüm metin bloklarını altında analyzeResults
en üst düzey nesne olarak ayıklar. Bu koleksiyondaki her girdi bir metin bloğunu ve .. /, ayıklanan metni olarakcontent
ve sınırlayıcı polygon
koordinatları içerir. Bilgiler, span
belgenin tam metnini içeren en üst düzey content
özellik içindeki metin parçasına işaret eder.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Paragraf rolleri
Yeni makine öğrenmesi tabanlı sayfa nesnesi algılama, başlıklar, bölüm başlıkları, sayfa üst bilgileri, sayfa alt bilgileri ve daha fazlası gibi mantıksal rolleri ayıklar. Belge Yönetim Bilgileri Düzeni modeli, koleksiyondaki paragraphs
belirli metin bloklarını model tarafından tahmin edilen özelleştirilmiş rolü veya türüyle atar. Daha zengin bir anlam analizi için ayıklanan içeriğin düzenini anlamanıza yardımcı olması için yapılandırılmamış belgelerle paragraf rollerini kullanmak en iyisidir. Aşağıdaki paragraf rolleri desteklenir:
Tahmin edilen rol | Açıklama | Desteklenen dosya türleri |
---|---|---|
title |
Sayfadaki ana başlıklar | pdf, image, docx, pptx, xlsx, html |
sectionHeading |
Sayfadaki bir veya daha fazla alt başlık | pdf, image, docx, xlsx, html |
footnote |
Sayfanın alt kısmındaki metin | pdf, resim |
pageHeader |
Sayfanın üst kenarına yakın metin | pdf, resim, docx |
pageFooter |
Sayfanın alt kenarına yakın metin | pdf, image, docx, pptx, html |
pageNumber |
Sayfa numarası | pdf, resim |
{
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"role": "title",
"content": "NEWS TODAY"
},
{
"spans": [],
"boundingRegions": [],
"role": "sectionHeading",
"content": "Mirjam Nilsson"
}
]
}
Metin, satır ve sözcükler
Belge Yönetim Bilgileri'ndeki belge düzeni modeli, yazdırma ve el yazısı stil metinlerini ve words
olarak lines
ayıklar. Koleksiyon styles
.. /, ilişkili metne işaret eden yayılma alanlarıyla birlikte algılanırsa satırlar için herhangi bir el yazısı stili içerir. Bu özellik desteklenen el yazısı diller için geçerlidir.
Microsoft Word, Excel, PowerPoint ve HTML için, Belge Zekası sürüm 2024-02-29-preview ve 2023-10-31-preview Düzen modeli tüm eklenmiş metni olduğu gibi ayıklar. Metinler sözcük ve paragraf olarak ayıklanır. Eklenmiş görüntüler desteklenmez.
"words": [
{
"content": "While",
"polygon": [],
"confidence": 0.997,
"span": {}
},
],
"lines": [
{
"content": "While healthcare is still in the early stages of its Al journey, we",
"polygon": [],
"spans": [],
}
]
# Analyze lines.
for line_idx, line in enumerate(page.lines):
words = line.get_words()
print(
f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
f"within bounding polygon '{format_polygon(line.polygon)}'"
)
# Analyze words.
for word in words:
print(
f"......Word '{word.content}' has a confidence of {word.confidence}"
)
Metin satırları için el yazısı stili
Yanıt .. /, her metin satırının el yazısı stilinde olup olmadığını ve güvenilirlik puanını sınıflandırmayı içerir. Daha fazla bilgi için. Bkz. El yazısı dil desteği. Aşağıdaki örnekte örnek bir JSON kod parçacığı gösterilmektedir.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Yazı tipi/stil eklentisi özelliğini etkinleştirirseniz, nesnenin bir parçası styles
olarak yazı tipi/stil sonucunu da alırsınız.
Seçim işaretleri
Düzen modeli, belgelerden seçim işaretlerini de ayıklar. Ayıklanan seçim işaretleri her sayfa için koleksiyon içinde pages
görünür. Sınırlayıcı polygon
, confidence
ve seçimini state
(selected/unselected
) içerir. Metin gösterimi (yani :selected:
ve :unselected
) başlangıç dizini (offset
) olarak da eklenir ve length
belgenin tam metnini içeren en üst düzey content
özelliğe başvurur.
{
"selectionMarks": [
{
"state": "unselected",
"polygon": [],
"confidence": 0.995,
"span": {
"offset": 1421,
"length": 12
}
}
]
}
# Analyze selection marks.
for selection_mark in page.selection_marks:
print(
f"Selection mark is '{selection_mark.state}' within bounding polygon "
f"'{format_polygon(selection_mark.polygon)}' and has a confidence of {selection_mark.confidence}"
)
Tablolar
Tabloları ayıklamak, genellikle tablo olarak biçimlendirilmiş büyük hacimli verileri içeren belgeleri işlemek için önemli bir gereksinimdir. Düzen modeli, JSON çıkışının pageResults
bölümündeki tabloları ayıklar. Ayıklanan tablo bilgileri.. /sütun ve satır sayısını, satır aralığını ve sütun aralığını içerir. Sınırlayıcı çokgeni olan her hücre, alanın bir columnHeader
olarak tanınıp tanınmadığı bilgisinin yanı sıra çıkıştır. Model, döndürülen tabloları ayıklamayı destekler. Her tablo hücresi satır ve sütun dizinini ve sınırlayıcı çokgen koordinatlarını içerir. Hücre metni için model, başlangıç dizinini span
(offset
) içeren bilgileri verir. Model, belgedeki tam metni içeren en üst düzey içeriğin içinde çıkışını da length
verir.
Belge Zekası balya ayıklama özelliğini kullanırken göz önünde bulundurmanız gereken birkaç faktör şunlardır:
Ayıklamak istediğiniz veriler tablo olarak sunuluyor mu ve tablo yapısı anlamlı mı?
Veriler tablo biçiminde değilse veriler iki boyutlu bir kılavuza sığabilir mi?
Tablolarınız birden çok sayfaya yayılsın mı? Bu durumda, tüm sayfaları etiketlemek zorunda kalmamak için Belge Yönetim Bilgileri'ne göndermeden önce PDF'yi sayfalara bölün. Analizden sonra sayfaları tek bir tabloya işleyin.
Özel modeller oluşturuyorsanız Tablosal alanlara bakın. Dinamik tabloların her sütun için değişken sayıda satırı vardır. Sabit tabloların her sütun için sabit sayıda satırı vardır.
Not
- Giriş dosyası XLSX ise tablo analizi desteklenmez.
- 2024-07-31-preview sürümünden itibaren, şekiller ve tablolar için sınırlayıcı bölgeler yalnızca temel içeriği kapsar ve ilişkili açıklamalı alt yazıları ve dipnotları dışlar.
{
"tables": [
{
"rowCount": 9,
"columnCount": 4,
"cells": [
{
"kind": "columnHeader",
"rowIndex": 0,
"columnIndex": 0,
"columnSpan": 4,
"content": "(In millions, except earnings per share)",
"boundingRegions": [],
"spans": []
},
]
}
]
}
# Analyze tables.
for table_idx, table in enumerate(result.tables):
print(
f"Table # {table_idx} has {table.row_count} rows and "
f"{table.column_count} columns"
)
for region in table.bounding_regions:
print(
f"Table # {table_idx} location on page: {region.page_number} is {format_polygon(region.polygon)}"
)
for cell in table.cells:
print(
f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'"
)
for region in cell.bounding_regions:
print(
f"...content on page {region.page_number} is within bounding polygon '{format_polygon(region.polygon)}'"
)
Ek açıklamalar (yalnızca API'de 2023-02-28-preview
kullanılabilir.)
Düzen modeli, belgelerdeki denetimler ve çaprazlar gibi ek açıklamaları ayıklar. Yanıt .. /, güvenilirlik puanı ve sınırlayıcı çokgen ile birlikte ek açıklama türünü içerir.
{
"pages": [
{
"annotations": [
{
"kind": "cross",
"polygon": [...],
"confidence": 1
}
]
}
]
}
Doğal okuma sırası çıkışı (yalnızca Latin)
Sorgu parametresiyle readingOrder
metin satırlarının çıkış sırasını belirtebilirsiniz. Aşağıdaki örnekte gösterildiği gibi daha insan dostu bir okuma sırası çıkışı için kullanın natural
. Bu özellik yalnızca Latin dilleri için desteklenir.
Metin ayıklama için sayfa numaralarını veya aralıkları seçme
Çok sayfalı büyük belgeler için, belirli sayfa numaralarını veya metin ayıklama için sayfa aralıklarını belirtmek üzere sorgu parametresini kullanın pages
. Aşağıdaki örnekte, tüm sayfalar (1-10) ve seçili sayfalar (3-6) olmak üzere her iki durumda da metin ayıklanmış 10 sayfalı bir belge gösterilmektedir.
Çözümle Düzenini Al Sonucu işlemi
İkinci adım, Çözümle Düzenini Al Sonucu işlemini çağırmaktır. Bu işlem, işlemin oluşturduğu Sonuç Kimliğini Analyze Layout
girdi olarak alır. Aşağıdaki olası değerleri içeren bir durum alanı içeren bir JSON yanıtı döndürür.
Alan | Tür | Olası değerler |
---|---|---|
durum | Dize | notStarted : Çözümleme işlemi başlatılmamış.running : Çözümleme işlemi devam ediyor.failed : Çözümleme işlemi başarısız oldu.succeeded : Çözümleme işlemi başarılı oldu. |
Değeri döndürene kadar bu işlemi yinelemeli olarak çağırın succeeded
. Saniye başına istek (RPS) hızını aşmamak için 3 ila 5 saniyelik bir aralık kullanın.
Durum alanında succeeded
değer olduğunda JSON yanıtı .. /ayıklanan düzeni, metni, tabloları ve seçim işaretlerini içerir. Ayıklanan veriler.. /, ayıklanan metin satırlarını ve sözcükleri, sınırlayıcı kutuları, el yazısı göstergeli metin görünümünü, tabloları ve seçili/seçili olmayan işaretli seçim işaretlerini içerir.
Metin satırları için el yazısı sınıflandırma (yalnızca Latin)
Yanıt .. /, her metin satırının el yazısı stilinde olup olmadığını ve güvenilirlik puanını sınıflandırmayı içerir. Bu özellik yalnızca Latin dilleri için desteklenir. Aşağıdaki örnekte, görüntüdeki metnin el yazısı sınıflandırması gösterilmektedir.
Örnek JSON çıkışı
Get Analyze Layout Result işlemine verilen yanıt, belgenin tüm bilgilerin ayıklandığı yapılandırılmış bir gösterimidir. Örnek belge dosyası ve yapılandırılmış çıktı örnek düzen çıktısı için buraya bakın.
JSON çıkışının iki bölümü vardır:
readResults
düğüm, tanınan metnin ve seçim işaretinin tümünü içerir. Metin sunu hiyerarşisi sayfa, satır ve sonra tek tek sözcüklerdir.pageResults
düğüm, sınırlayıcı kutularıyla ayıklanan tabloları ve hücreleri, güveni ve "readResults" alanındaki satır ve sözcüklere başvuruyu içerir.
Örnek Çıkış
Metin
Düzen API'si, birden çok metin açısına ve rengine sahip belgelerden ve görüntülerden metin ayıklar. Belge, faks, basılı ve/veya el yazısı (yalnızca İngilizce) metin ve karma mod fotoğraflarını kabul eder. Metin, satırlar, sözcükler, sınırlayıcı kutular, güvenilirlik puanları ve stil (el yazısı veya diğer) hakkında sağlanan bilgilerle ayıklanır. Tüm metin bilgileri JSON çıkışının bölümüne eklenir readResults
.
Üst bilgi içeren tablolar
Düzen API'si, JSON çıkışının pageResults
bölümündeki tabloları ayıklar. Belgeler taranabilir, fotoğraflanabilir veya dijitalleştirilebilir. Tablolar birleştirilmiş hücrelerde veya sütunlarda, kenarlıklı veya kenarlıksız ve tek açılarla karmaşık olabilir. Ayıklanan tablo bilgileri.. /sütun ve satır sayısını, satır aralığını ve sütun aralığını içerir. Sınırlayıcı kutusu olan her hücre, alanın bir üst bilginin parçası olarak tanınıp tanınmadığıyla birlikte çıkıştır. Modelde tahmin edilen üst bilgi hücreleri birden çok satıra yayılabilir ve tablodaki ilk satırlar olmayabilir. Ayrıca, döndürülmüş tablolarla da çalışırlar. Her tablo hücresi de .. /, bölümdeki tek tek sözcüklere readResults
başvurular içeren tam metni içerir.
Seçim işaretleri
Düzen API'si belgelerden seçim işaretlerini de ayıklar. Ayıklanan seçim işaretleri sınırlayıcı kutuyu, güveni ve durumu (seçili/seçilmemiş) içerir. Seçim işareti bilgileri JSON çıkışının readResults
bölümünde ayıklanır.
Geçiş kılavuzu
Sonraki adımlar
Document Intelligence Studio ile kendi formlarınızı ve belgelerinizi işlemeyi öğrenin.
Belge Zekası hızlı başlangıcını tamamlayın ve seçtiğiniz geliştirme dilinde bir belge işleme uygulaması oluşturmaya başlayın.
Belge Zekası Örnek Etiketleme aracıyla kendi formlarınızı ve belgelerinizi işlemeyi öğrenin.
Belge Zekası hızlı başlangıcını tamamlayın ve seçtiğiniz geliştirme dilinde bir belge işleme uygulaması oluşturmaya başlayın.