Rychlý start: Vektorizace textu a obrázků pomocí webu Azure Portal

Článek
10/20/2024

Tento rychlý start vám pomůže začít s integrovanou vektorizací pomocí Průvodce importem a vektorizací dat na webu Azure Portal. Průvodce zablokuje váš obsah a volá model vkládání, který vektorizuje obsah během indexování a pro dotazy.

Klíčové body o průvodci:

Podporované zdroje dat jsou Azure Blob Storage, Azure Data Lake Storage (ADLS) Gen2 nebo soubory a klávesové zkratky OneLake.
Podporované modely vkládání jsou hostované v Azure OpenAI, katalogu modelů Azure AI Studio, multimodálním prostředí Azure AI Vision.
Schéma indexu poskytuje vektorová a nevectorová pole pro blokovaná data.
Můžete přidat pole, ale nemůžete odstranit ani upravit vygenerovaná pole.
Režim analýzy dokumentů vytváří bloky dat (jeden vyhledávací dokument na jeden blok dat).

Blok dat je nekonfigurovatelný. Platná nastavení jsou:

"textSplitMode": "pages",
"maximumPageLength": 2000,
"pageOverlapLength": 500,
"maximumPagesToTake": 0, #unlimited
"unit": "characters",

Požadavky

Předplatné Azure. Vytvořte si ho zdarma.
Azure AI Search ve stejné oblasti jako Azure AI. Doporučujeme úroveň Basic nebo vyšší.
Azure Blob Storage, Azure Data Lake Storage (ADLS) Gen2 (účet úložiště s hierarchickým oborem názvů) nebo OneLake Lakehouse.

Azure Storage musí být účet standardního výkonu (pro obecné účely verze 2). Úrovně přístupu můžou být horké, studené a studené.

Model vkládání na platformu Azure AI ve stejné oblasti jako Azure AI Search. Pokyny k nasazení najdete v tomto článku.

Poskytovatel	Podporované modely
Služba Azure OpenAI	text-embedding-ada-002, text-embedding-3-large, or text-embedding-3-small.
Katalog modelů Azure AI Studio	Modely vkládání do Azure, Cohere a Facebooku
Účet služeb Azure AI s více službami	Multimodální azure AI Vision pro vektorizaci obrázků a textu Multimodální prostředí Azure AI Vision je dostupné ve vybraných oblastech. V dokumentaci najdete aktualizovaný seznam. Pokud chcete tento prostředek použít, musí být účet v dostupné oblasti a ve stejné oblasti jako Azure AI Search.

Pokud používáte službu Azure OpenAI, musí mít přidruženou vlastní subdoménu. Pokud byla služba vytvořená prostřednictvím webu Azure Portal, tato subdoména se automaticky vygeneruje jako součást nastavení služby. Před použitím s integrací služby Azure AI Search se ujistěte, že vaše služba obsahuje vlastní subdoménu.

Prostředky služby Azure OpenAI (s přístupem k modelům vkládání) vytvořené v AI Studiu se nepodporují. S integrací dovedností Azure OpenAI Embedding jsou kompatibilní pouze prostředky služby Azure OpenAI vytvořené na webu Azure Portal.

Požadavky na veřejný koncový bod

Všechny předchozí prostředky musí mít povolený veřejný přístup, aby k nim měly uzly portálu přístup. Jinak průvodce selže. Po spuštění průvodce můžete pro zabezpečení povolit brány firewall a privátní koncové body. Další informace naleznete v tématu Zabezpečené připojení v průvodcích importem.

Pokud už existují privátní koncové body a nemůžete je zakázat, je alternativní možností spuštění příslušného kompletního toku ze skriptu nebo programu na virtuálním počítači. Virtuální počítač musí být ve stejné virtuální síti jako privátní koncový bod. Tady je ukázka kódu Pythonu pro integrovanou vektorizaci. Stejné úložiště GitHub obsahuje ukázky v jiných programovacích jazycích.

Požadavky na řízení přístupu na základě role

Doporučujeme přiřazení rolí pro připojení vyhledávací služby k jiným prostředkům.

Ve službě Azure AI Search povolte role.
Nakonfigurujte vyhledávací službu tak, aby používala spravovanou identitu.
Na platformě zdroje dat a poskytovateli modelu pro vložení vytvořte přiřazení rolí, která vyhledávací službě umožňují přístup k datům a modelům. Příprava ukázkových dat poskytuje pokyny pro nastavení rolí.

Bezplatná vyhledávací služba podporuje RBAC u připojení ke službě Azure AI Search, ale nepodporuje spravované identity u odchozích připojení ke službě Azure Storage nebo Azure AI Vision. Tato úroveň podpory znamená, že pro připojení mezi bezplatnou vyhledávací službou a dalšími službami Azure musíte použít ověřování založené na klíči.

Bezpečnější připojení:

Použijte úroveň Basic nebo vyšší.
Nakonfigurujte spravovanou identitu a použijte role pro autorizovaný přístup.

Poznámka:

Pokud nemůžete procházet průvodcem, protože nejsou dostupné možnosti (například nemůžete vybrat zdroj dat nebo vložený model), znovu se k přiřazení rolí vrátit. Chybové zprávy označují, že modely nebo nasazení neexistují, pokud ve skutečnosti skutečná příčina znamená, že vyhledávací služba nemá oprávnění k přístupu k nim.

Kontrola místa

Pokud začínáte s bezplatnou službou, jste omezeni na tři indexy, zdroje dat, sady dovedností a indexery. Základní omezení na 15. Než začnete, ujistěte se, že máte místo pro další položky. Tento rychlý start vytvoří jeden z každého objektu.

Kontrola sémantického rankeru

Průvodce podporuje sémantické řazení, ale pouze na úrovni Basic a vyšší a pouze v případě, že je ve vyhledávací službě již povolený sémantický ranker. Pokud používáte fakturovatelnou úroveň, zkontrolujte, jestli je povolený sémantický ranker.

Příprava ukázkových dat

Tato část vás odkazuje na data, která fungují pro účely tohoto rychlého startu.

Přihlaste se k webu Azure Portal pomocí svého účtu Azure a přejděte ke svému účtu Azure Storage.
V levém podokně v části Úložiště dat vyberte Kontejnery.
Vytvořte nový kontejner a pak nahrajte dokumenty PDF plánu stavu použité pro účely tohoto rychlého startu.
V levém podokně v části Řízení přístupu přiřaďte roli Čtenář dat objektů blob služby Storage k identitě vyhledávací služby. Nebo získejte připojovací řetězec k účtu úložiště ze stránky Přístupové klíče.
Volitelně můžete synchronizovat odstranění v kontejneru s odstraněními v indexu vyhledávání. Následující kroky vám umožní nakonfigurovat indexer pro detekci odstranění:
1. U účtu úložiště povolte obnovitelné odstranění .
2. Pokud používáte nativní obnovitelné odstranění, v Azure Storage se nevyžadují žádné další kroky.
3. V opačném případě přidejte vlastní metadata, která indexer může zkontrolovat a určit, které objekty blob jsou označené k odstranění. Zadejte vlastní vlastnost popisný název. Můžete například pojmenovat vlastnost IsDeleted, která je nastavená na hodnotu false. Proveďte to pro každý objekt blob v kontejneru. Později, když chcete odstranit objekt blob, změňte vlastnost na true. Další informace najdete v tématu Změna a odstranění detekce při indexování ze služby Azure Storage.

Přihlaste se k Power BI a vytvořte pracovní prostor.
V Power BI vyberte v nabídce vlevo pracovní prostory a otevřete pracovní prostor, který jste vytvořili.
Přiřaďte oprávnění na úrovni pracovního prostoru:
1. V pravé horní nabídce vyberte Spravovat přístup.
2. Vyberte Přidat lidi nebo skupiny.
3. Zadejte název vyhledávací služby. Pokud je https://my-demo-service.search.windows.netadresa URL například , název vyhledávací služby je my-demo-service.
4. Vyberte roli. Výchozí hodnota je Prohlížeč, ale potřebujete přispěvatele k načtení dat do indexu vyhledávání.
Načtěte ukázková data:
1. V přepínači Power BI vlevo dole vyberte Datoví technici ing.
2. V podokně Datoví technici vyberte Lakehouse a vytvořte jezero.
3. Zadejte název a pak vyberte Vytvořit , abyste vytvořili a otevřeli nový jezerní dům.
4. Vyberte Nahrát soubory a pak nahrajte dokumenty PDF plánu stavu použité pro tento rychlý start.
Před opuštěním jezeře zkopírujte adresu URL nebo získejte ID pracovního prostoru a jezerahouse, abyste mohli v průvodci zadat jezero. Adresa URL je v tomto formátu: https://msit.powerbi.com/groups/00000000-0000-0000-0000-000000000000/lakehouses/11111111-1111-1111-1111-111111111111?experience=data-engineering.

Nastavení modelů vkládání

Průvodce může používat modely vkládání nasazené z Azure OpenAI, Azure AI Vision nebo z katalogu modelů v Azure AI Studiu.

Průvodce podporuje vkládání textu ada-002, text-embedding-3-large a text-embedding-3-small. Průvodce interně volá dovednosti AzureOpenAIEmbedding pro připojení k Azure OpenAI.

Přihlaste se k webu Azure Portal pomocí svého účtu Azure a přejděte k prostředku Azure OpenAI.
Nastavení oprávnění:
1. V nabídce vlevo vyberte Řízení přístupu.
2. Vyberte Přidat a pak vyberte Přidat přiřazení role.
3. V části Role funkce úlohy vyberte Uživatele OpenAI služeb Cognitive Services a pak vyberte Další.
4. V části Členové vyberte Spravovanou identitu a pak vyberte Členové.
5. Vyfiltrujte podle předplatného a typu prostředku (vyhledávací služby) a pak vyberte spravovanou identitu vyhledávací služby.
6. Vyberte Zkontrolovat + přiřadit.
Na stránce Přehled vyberte Kliknutím sem zobrazíte koncové body. Pokud potřebujete zkopírovat koncový bod nebo klíč rozhraní API, klikněte sem a spravujte klíče. Tyto hodnoty můžete vložit do průvodce, pokud používáte prostředek Azure OpenAI s ověřováním na základě klíče.
V části Správa prostředků a nasazení modelu vyberte Spravovat nasazení a otevřete Azure AI Studio.
Zkopírujte název text-embedding-ada-002 nasazení nebo jiný podporovaný model vkládání. Pokud model vkládání nemáte, nasaďte ho teď.

Spuštění průvodce

Přihlaste se k webu Azure Portal pomocí svého účtu Azure a přejděte na Search Azure AI.
Na stránce Přehled vyberte Importovat a vektorizovat data.

Připojení k datům

Dalším krokem je připojení ke zdroji dat, který se má použít pro index vyhledávání.

Na stránce Nastavení datového připojení vyberte Azure Blob Storage.
Zadejte předplatné Azure.
Zvolte účet úložiště a kontejner, který data poskytuje.
Určete, jestli chcete podporu detekce odstranění. Při následných spuštěních indexování se index vyhledávání aktualizuje, aby odebral všechny vyhledávací dokumenty na základě obnovitelně odstraněných objektů blob ve službě Azure Storage.
- Objekty blob podporují obnovitelné odstranění nativního objektu blob nebo obnovitelné odstranění pomocí vlastních dat.
- V Azure Storage musíte mít dříve povolené obnovitelné odstranění a volitelně jste přidali vlastní metadata , která indexování dokáže rozpoznat jako příznak odstranění. Další informace o těchto krocích najdete v tématu Příprava ukázkových dat.
- Pokud jste nakonfigurovali objekty blob pro obnovitelné odstranění pomocí vlastních dat, zadejte v tomto kroku dvojici název-hodnota vlastnosti metadat. Doporučujeme "IsDeleted". Pokud je vlastnost IsDeleted nastavená na hodnotu true u objektu blob, indexer zahodí odpovídající vyhledávací dokument při dalším spuštění indexeru.
Průvodce nekontroluje platné nastavení služby Azure Storage nebo vyvolá chybu, pokud nejsou splněné požadavky. Místo toho detekce odstranění nefunguje a index vyhledávání bude pravděpodobně shromažďovat osamocené dokumenty v průběhu času.
Určete, jestli se má vaše vyhledávací služba připojit ke službě Azure Storage pomocí své spravované identity.
- Zobrazí se výzva, abyste zvolili identitu spravovanou systémem nebo spravovanou uživatelem.
- Identita by měla mít v Azure Storage roli Čtenář dat objektů blob služby Storage.
- Tento krok nepřeskočte. Při indexování dojde k chybě připojení, pokud se průvodce nemůže připojit ke službě Azure Storage.
Vyberte Další.

Vektorizace textu

V tomto kroku zadejte model vkládání pro vektorizaci dat v bloku dat.

Na stránce Vektorizace textu zvolte zdroj modelu vkládání:
- Azure OpenAI
- Katalog modelů Azure AI Studio
- Existující multimodální prostředek Azure AI Vision ve stejné oblasti jako Azure AI Search. Pokud ve stejné oblasti není žádný účet azure AI Services s více službami, tato možnost není dostupná.
Zvolte předplatné Azure.
Proveďte výběry podle prostředku:
- V případě Azure OpenAI zvolte existující nasazení vkládání textu ada-002, vkládání textu-3-large nebo text-embedding-3-small.
- V katalogu AI Studio zvolte existující nasazení modelu vkládání do Azure, Cohere a Facebooku.
- U multimodálních vkládání AI Vision vyberte účet.
Další informace najdete v tématu Nastavení modelů vkládání dříve v tomto článku.
Určete, jestli se má vyhledávací služba ověřovat pomocí klíče rozhraní API nebo spravované identity.
- Identita by měla mít roli uživatele OpenAI služeb Cognitive Services v účtu Azure AI s více službami.
Zaškrtněte políčko, které potvrzuje dopad fakturace používání těchto prostředků.
Vyberte Další.

Vektorizace a rozšiřování obrázků

Pokud váš obsah obsahuje obrázky, můžete AI použít dvěma způsoby:

Použijte podporovaný model vkládání obrázků z katalogu nebo zvolte multimodální rozhraní API služby Azure AI Vision pro vložení obrázků.
K rozpoznávání textu v obrázcích použijte optické rozpoznávání znaků (OCR). Tato možnost vyvolá dovednost OCR ke čtení textu z obrázků.

Azure AI Search a prostředek Azure AI musí být ve stejné oblasti.

Na stránce Vektorizace obrázků zadejte typ připojení, které má průvodce vytvořit. V případě vektorizace obrázků se průvodce může připojit k vkládání modelů v Azure AI Studiu nebo Azure AI Vision.
Zadejte předplatné.
Pro katalog modelů Azure AI Studio zadejte projekt a nasazení. Další informace najdete v tématu Nastavení modelů vkládání dříve v tomto článku.
Volitelně můžete prolomit binární obrázky (například naskenované soubory dokumentů) a použít OCR k rozpoznávání textu.
Zaškrtněte políčko, které potvrzuje dopad fakturace používání těchto prostředků.
Vyberte Další.

Přidání sémantického řazení

Na stránce Upřesnit nastavení můžete volitelně přidat sémantické řazení, aby se výsledky na konci provádění dotazu přeřadily. Přehodnocování podporuje nejvíce séanticky relevantní shody na vrcholu.

Mapování nových polí

Na stránce Upřesnit nastavení můžete volitelně přidat nová pole. Ve výchozím nastavení průvodce vygeneruje následující pole s těmito atributy:

Pole	Platí pro	Popis
chunk_id	Vektory textu a obrázku	Pole vygenerovaného řetězce Prohledávatelné, načístelné, řaditelné. Toto je klíč dokumentu indexu.
parent_id	Textové vektory	Pole vygenerovaného řetězce Načístelné, filtrovatelné. Identifikuje nadřazený dokument, ze kterého pochází blok dat.
chunk	Vektory textu a obrázku	Pole Řetězce. Lidsky čitelná verze datového bloku Prohledávatelné a načístelné, ale nefiltrovatelné, fasetové nebo řaditelné.
title	Vektory textu a obrázku	Pole Řetězce. Název dokumentu čitelný pro člověka nebo název stránky nebo číslo stránky Prohledávatelné a načístelné, ale nefiltrovatelné, fasetové nebo řaditelné.
text_vector	Textové vektory	Collection(Edm.single). Vektorové znázornění bloku dat Prohledávatelné a načístelné, ale nefiltrovatelné, fasetové nebo řaditelné.

Vygenerovaná pole ani jejich atributy nemůžete upravovat, ale pokud je zdroj dat poskytuje, můžete přidat nová pole. Azure Blob Storage například poskytuje kolekci polí metadat.

Vyberte Přidat nový.
Ze seznamu dostupných polí zvolte zdrojové pole, zadejte název pole pro index a podle potřeby přijměte výchozí datový typ nebo přepsání.

Pole metadat jsou prohledávatelná, ale nedají se načíst, filtrovatelná, fasetová nebo řaditelná.
Pokud chcete obnovit schéma do původní verze, vyberte Obnovit .

Plánování indexování

Na stránce Upřesnit nastavení můžete volitelně zadat plán spuštění indexeru.

Až budete hotovi se stránkou Upřesnit nastavení, vyberte Další.

Dokončení průvodce

Na stránce Kontrola konfigurace zadejte předponu pro objekty, které průvodce vytvoří. Běžná předpona vám pomůže udržet si přehled.
Vyberte Vytvořit.

Po dokončení konfigurace průvodce vytvoří následující objekty:

Připojení ke zdroji dat
Indexujte pomocí vektorových polí, vektorizátorů, vektorových profilů a vektorových algoritmů. Během pracovního postupu průvodce nemůžete navrhnout ani upravit výchozí index. Indexy odpovídají rozhraní REST API verze 2024-05-01-preview.
Sada dovedností s dovedností Rozdělení textu pro blokování dat a vloženou dovedností pro vektorizaci. Dovednost vkládání je dovednost AzureOpenAIEmbeddingModel pro Azure OpenAI nebo dovednost AML pro katalog modelů Azure AI Studio. Sada dovedností má také konfiguraci projekcí indexu , která umožňuje mapování dat z jednoho dokumentu ve zdroji dat na odpovídající bloky dat v indexu "child".
Indexer s mapováním polí a mapováním výstupních polí (pokud je to možné).

Kontrola výsledků

Průzkumník služby Search přijímá textové řetězce jako vstup a pak vektorizuje text pro provádění vektorového dotazu.

Na webu Azure Portal přejděte do indexů správy>vyhledávání a vyberte index, který jste vytvořili.
Volitelně můžete vybrat možnosti dotazu a skrýt vektorové hodnoty ve výsledcích hledání. Tento krok usnadňuje čtení výsledků hledání.
V nabídce Zobrazení vyberte zobrazení JSON, abyste do parametru vektorového text dotazu mohli zadat text pro vektorový dotaz.

Průvodce nabízí výchozí dotaz, který vydá vektorový dotaz v vector poli a vrátí pět nejbližších sousedů. Pokud jste se rozhodli skrýt vektorové hodnoty, váš výchozí dotaz obsahuje select příkaz, který pole vylučuje vector z výsledků hledání.
```
{
   "select": "chunk_id,parent_id,chunk,title",
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}
```
text Pro hodnotu nahraďte hvězdičku (*) otázkou související se zdravotními plány, například Which plan has the lowest deductible?.
Výběrem možnosti Hledat spusťte dotaz.

Mělo by se zobrazit pět shod. Každý dokument je blokem původního souboru PDF. Pole title ukazuje, ze kterého souboru PDF blok pochází.

Pokud chcete zobrazit všechny bloky dat z konkrétního dokumentu, přidejte filtr pro title pole pro konkrétní PDF:

{
   "select": "chunk_id,parent_id,chunk,title",
   "filter": "title eq 'Benefit_Options.pdf'",
   "count": true,
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}

Vyčištění

Azure AI Search je fakturovatelný prostředek. Pokud ho už nepotřebujete, odstraňte ho z předplatného, abyste se vyhnuli poplatkům.

Další krok

V tomto rychlém startu jste se seznámili s průvodcem importem a vektorizací dat , který vytvoří všechny potřebné objekty pro integrovanou vektorizaci. Pokud chcete podrobně prozkoumat jednotlivé kroky, vyzkoušejte integrovaný vektorizační vzorek.

Sdílet prostřednictvím