Hızlı Başlangıç: Azure portalını kullanarak metin ve görüntüleri vektörleştirme
Bu hızlı başlangıç, Azure portalındaki Verileri içeri aktarma ve vektörleştirme sihirbazını kullanarak tümleşik vektörleştirmeye başlamanıza yardımcı olur. Sihirbaz, içeriğinizi öbekler ve dizin oluşturma sırasında ve sorgular için içeriği vektörleştirmek için bir ekleme modeli çağırır.
Sihirbazla ilgili önemli noktalar:
Desteklenen veri kaynakları Azure Blob Depolama, Azure Data Lake Storage (ADLS) 2. Nesil veya OneLake dosyaları ve kısayollarıdır.
Desteklenen ekleme modelleri Azure OpenAI, Azure AI Studio model kataloğu, Azure AI Vision çoklu modülünde barındırılır.
Dizin şeması, öbeklenmiş veriler için vektör ve seçici olmayan alanlar sağlar.
Alan ekleyebilirsiniz, ancak oluşturulan alanları silemez veya değiştiremezsiniz.
Belge ayrıştırma modu öbekler oluşturur (öbek başına bir arama belgesi).
Öbekleme yapılandırılamaz. Geçerli ayarlar şunlardır:
"textSplitMode": "pages", "maximumPageLength": 2000, "pageOverlapLength": 500, "maximumPagesToTake": 0, #unlimited "unit": "characters",
Önkoşullar
Azure aboneliği. Ücretsiz bir tane oluşturun.
Azure yapay zeka, Azure AI ile aynı bölgede Arama hizmeti. Temel katmanı veya üzerini öneririz.
Azure Blob Depolama, Azure Data Lake Storage (ADLS) 2. Nesil (hiyerarşik ad alanına sahip bir depolama hesabı) veya OneLake lakehouse.
Azure Depolama standart bir performans (genel amaçlı v2) hesabı olmalıdır. Erişim katmanları sık erişimli, seyrek erişimli ve soğuk olabilir.
Azure AI Search ile aynı bölgede yer alan bir Azure yapay zeka platformuna ekleme modeli. Dağıtım yönergeleri bu makalede yer alır.
Provider Desteklenen modeller Azure OpenAI Hizmeti text-embedding-ada-002, text-embedding-3-large veya text-embedding-3-small. Azure AI Studio model kataloğu Azure, Cohere ve Facebook ekleme modelleri. Azure AI hizmetleri çok hizmetli hesabı Görüntü ve metin vektörleştirme için Azure AI Vision çok modüllü . Azure AI Vision multimodal, seçili bölgelerde kullanılabilir. Güncelleştirilmiş liste belgelerine bakın. Bu kaynağı kullanmak için hesabın kullanılabilir bir bölgede ve Azure AI Search ile aynı bölgede olması gerekir.
Azure OpenAI Hizmeti kullanılıyorsa, ilişkili bir özel alt etki alanına sahip olması gerekir. Hizmet Azure portalı aracılığıyla oluşturulduysa, bu alt etki alanı hizmet kurulumunuzun bir parçası olarak otomatik olarak oluşturulur. Hizmetinizi Azure AI Search tümleştirmesiyle kullanmadan önce özel bir alt etki alanı içerdiğinden emin olun.
AI Studio'da oluşturulan Azure OpenAI Hizmeti kaynakları (ekleme modellerine erişimi olan) desteklenmez. Yalnızca Azure portalında oluşturulan Azure OpenAI Hizmeti kaynakları, Azure OpenAI Ekleme beceri tümleştirmesiyle uyumludur.
Genel uç nokta gereksinimleri
Portal düğümlerinin bunlara erişebilmesi için önceki tüm kaynakların genel erişimi etkinleştirilmelidir. Aksi takdirde sihirbaz başarısız olur. Sihirbaz çalıştırıldıktan sonra, güvenlik için tümleştirme bileşenlerinde güvenlik duvarlarını ve özel uç noktaları etkinleştirebilirsiniz. Daha fazla bilgi için bkz . İçeri aktarma sihirbazlarında güvenli bağlantılar.
Özel uç noktalar zaten varsa ve bunları devre dışı bırakamıyorsanız, alternatif seçenek sanal makinedeki bir betikten veya programdan ilgili uçtan uca akışı çalıştırmaktır. Sanal makine, özel uç noktayla aynı sanal ağda olmalıdır. Tümleşik vektörleştirme için bir Python kod örneği aşağıda verilmiştır. Aynı GitHub deposunda diğer programlama dillerinde örnekler bulunur.
Rol tabanlı erişim denetimi gereksinimleri
Diğer kaynaklara yönelik arama hizmeti bağlantıları için rol atamaları öneririz.
Azure AI Search'te rolleri etkinleştirin.
Arama hizmetinizi yönetilen kimlik kullanacak şekilde yapılandırın.
Veri kaynağı platformunuzda ve ekleme modeli sağlayıcınızda, arama hizmetinin verilere ve modellere erişmesine olanak sağlayan rol atamaları oluşturun. Örnek verileri hazırlama, rolleri ayarlamaya yönelik yönergeler sağlar.
Ücretsiz arama hizmeti, Azure AI Search bağlantılarında RBAC'yi destekler, ancak Azure Depolama'ya veya Azure AI Vision'a giden bağlantılarda yönetilen kimlikleri desteklemez. Bu destek düzeyi, ücretsiz arama hizmetiyle diğer Azure hizmetleri arasındaki bağlantılarda anahtar tabanlı kimlik doğrulaması kullanmanız gerektiği anlamına gelir.
Daha güvenli bağlantılar için:
- Temel katmanı veya üzerini kullanın.
- Yönetilen bir kimlik yapılandırın ve yetkili erişim için rolleri kullanın.
Not
Seçenekler kullanılamadığından sihirbazda ilerleyemiyorsanız (örneğin, veri kaynağı veya ekleme modeli seçemiyorsanız), rol atamalarını yeniden ziyaret edin. Hata iletileri modellerin veya dağıtımların mevcut olmadığını gösterir. Bunun asıl nedeni, arama hizmetinin bunlara erişim izni olmamasıdır.
Alan denetleme
Ücretsiz hizmetle başlıyorsanız üç dizin, veri kaynağı, beceri kümesi ve dizin oluşturucuyla sınırlısınız demektir. Temel, sizi 15 ile sınırlar. Başlamadan önce ek öğeler için yeriniz olduğundan emin olun. Bu hızlı başlangıçta her nesneden biri oluşturulur.
Anlam derecesini denetleme
Sihirbaz semantik derecelendirmeyi destekler, ancak yalnızca Temel katmanda ve daha yüksek bir katmanda ve yalnızca arama hizmetinizde semantik dereceleyici zaten etkinse. Faturalanabilir bir katman kullanıyorsanız anlam dereceleyicinin etkinleştirilip etkinleştirilmediğini denetleyin.
Örnek verileri hazırlama
Bu bölüm, bu hızlı başlangıç için uygun olan verileri gösterir.
Azure hesabınızla Azure portalında oturum açın ve Azure Depolama hesabınıza gidin.
Sol bölmedeki Veri Depolama'nın altında Kapsayıcılar'ı seçin.
Yeni bir kapsayıcı oluşturun ve ardından bu hızlı başlangıç için kullanılan sistem durumu planı PDF belgelerini karşıya yükleyin.
Sol bölmede, Erişim denetimi altında Depolama Blobu Veri Okuyucusu rolünü arama hizmeti kimliğine atayın. Alternatif olarak, Erişim anahtarları sayfasından depolama hesabına bir bağlantı dizesi alabilirsiniz.
İsteğe bağlı olarak, kapsayıcınızdaki silmeleri arama dizinindeki silme işlemleriyle eşitleyin. Aşağıdaki sonraki adımlar, dizin oluşturucuyu silme algılaması için yapılandırmanıza olanak sağlar:
Depolama hesabınızda geçici silmeyi etkinleştirin.
Yerel geçici silme kullanıyorsanız Azure Depolama'da başka adım gerekmez.
Aksi takdirde, bir dizin oluşturucu tarafından hangi blobların silinmek üzere işaretlendiğini belirlemek için tarayabileceği özel meta veriler ekleyin. Özel özelliğinize açıklayıcı bir ad verin. Örneğin, özelliğini "IsDeleted" olarak adlandırabilir ve false olarak ayarlayabilirsiniz. Bunu kapsayıcıdaki her blob için yapın. Daha sonra blobu silmek istediğinizde özelliğini true olarak değiştirin. Daha fazla bilgi için bkz. Azure Depolama'dan dizin oluştururken algılamayı değiştirme ve silme
Ekleme modellerini ayarlama
Sihirbaz, Azure OpenAI, Azure AI Vision veya Azure AI Studio'daki model kataloğundan dağıtılan ekleme modellerini kullanabilir.
Sihirbaz text-embedding-ada-002, text-embedding-3-large ve text-embedding-3-small'ı destekler. Sihirbaz dahili olarak Azure OpenAI'ye bağlanmak için AzureOpenAIEmbedding becerisini çağırır.
Azure hesabınızla Azure portalında oturum açın ve Azure OpenAI kaynağınıza gidin.
İzinleri ayarlama:
Sol menüde Erişim denetimi'ni seçin.
Ekle'yi ve ardından Rol ataması ekle'yi seçin.
İş işlevi rolleri'nin altında Bilişsel Hizmetler OpenAI Kullanıcısı'nın ardından İleri'yi seçin.
Üyeler'in altında Yönetilen kimlik'i ve ardından Üyeler'i seçin.
Aboneliğe ve kaynak türüne (arama hizmetleri) göre filtreleyin ve arama hizmetinizin yönetilen kimliğini seçin.
Gözden geçir + ata'yı seçin.
Genel Bakış sayfasında Uç noktaları görüntülemek için buraya tıklayın'ı veya bir uç nokta veya API anahtarı kopyalamanız gerekiyorsa anahtarları yönetmek için buraya tıklayın'ı seçin. Anahtar tabanlı kimlik doğrulamasına sahip bir Azure OpenAI kaynağı kullanıyorsanız bu değerleri sihirbaza yapıştırabilirsiniz.
Azure AI Studio'yu açmak için Kaynak Yönetimi ve Model dağıtımları'nın altında Dağıtımları Yönet'i seçin.
veya başka bir desteklenen ekleme modelinin
text-embedding-ada-002
dağıtım adını kopyalayın. Ekleme modeliniz yoksa şimdi bir tane dağıtın.
Sihirbazı başlatma
Azure hesabınızla Azure portalında oturum açın ve Azure yapay zeka Arama hizmeti gidin.
Genel Bakış sayfasında Verileri içeri aktar ve vektörleştir'i seçin.
Verilerinize bağlanma
Sonraki adım, arama dizini için kullanılacak bir veri kaynağına bağlanmaktır.
Veri bağlantınızı ayarlayın sayfasında Azure Blob Depolama'ı seçin.
Azure aboneliğini belirtin.
Verileri sağlayan depolama hesabını ve kapsayıcıyı seçin.
Silme algılama desteği isteyip istemediğinizi belirtin. Sonraki dizin oluşturma çalıştırmalarında arama dizini, Azure Depolama'da geçici olarak silinen blobları temel alan tüm arama belgelerini kaldıracak şekilde güncelleştirilir.
- Bloblar, özel verileri kullanarak Yerel blob geçici silmeyi veya Geçici silmeyi destekler.
- Daha önce Azure Depolama'da geçici silmeyi etkinleştirmiş ve isteğe bağlı olarak dizin oluşturmanın silme bayrağı olarak tanıyabileceği özel meta veriler eklemiş olmanız gerekir. Bu adımlar hakkında daha fazla bilgi için bkz . Örnek verileri hazırlama.
- Bloblarınızı özel verileri kullanarak geçici silme için yapılandırdıysanız, bu adımda meta veri özelliği ad-değer çiftini sağlayın. "IsDeleted" önerilir. Bir blobda "IsDeleted" true olarak ayarlanırsa, dizin oluşturucu sonraki dizin oluşturucu çalıştırmasına karşılık gelen arama belgesini bırakır.
Sihirbaz geçerli ayarlar için Azure Depolama'yı denetlemez veya gereksinimler karşılanmazsa hata oluşturmaz. Bunun yerine, silme algılaması çalışmaz ve arama dizininizin zaman içinde yalnız bırakılmış belgeleri toplaması olasıdır.
Arama hizmetinizin yönetilen kimliğini kullanarak Azure Depolama'ya bağlanmasını isteyip istemediğinizi belirtin.
- Sistem tarafından yönetilen veya kullanıcı tarafından yönetilen bir kimlik seçmeniz istenir.
- Kimliğin Azure Depolama'da bir Depolama Blob Veri Okuyucusu rolü olmalıdır.
- Bu adımı atlamayın. Sihirbaz Azure Depolama'ya bağlanamıyorsa dizin oluşturma sırasında bir bağlantı hatası oluşur.
İleri'yi seçin.
Metninizi vektörleştirme
Bu adımda, öbeklenmiş verileri vektörleştirmek için ekleme modelini belirtin.
Metninizi vektörleştirin sayfasında ekleme modelinin kaynağını seçin:
- Azure OpenAI
- Azure AI Studio model kataloğu
- Azure AI Search ile aynı bölgede bulunan mevcut bir Azure AI Vision çok modüllü kaynağı. Aynı bölgede Azure AI Services çoklu hizmet hesabı yoksa bu seçenek kullanılamaz.
Azure aboneliğini seçin.
Kaynağa göre seçim yapın:
Azure OpenAI için text-embedding-ada-002, text-embedding-3-large veya text-embedding-3-small dağıtımını seçin.
AI Studio kataloğu için Azure, Cohere ve Facebook ekleme modelinin mevcut dağıtımını seçin.
AI Vision çok modüllü eklemeler için hesabı seçin.
Daha fazla bilgi için bu makalenin önceki bölümlerinde yer alan Ekleme modellerini ayarlama bölümüne bakın.
Arama hizmetinizin BIR API anahtarı veya yönetilen kimlik kullanarak kimlik doğrulaması yapmak isteyip istemediğinizi belirtin.
- Kimlik, Azure AI çoklu hizmetler hesabında Bilişsel Hizmetler OpenAI Kullanıcı rolüne sahip olmalıdır.
Bu kaynakları kullanmanın faturalama etkisini kabul eden onay kutusunu seçin.
İleri'yi seçin.
Görüntülerinizi vektörleştirin ve zenginleştirin
İçeriğinizde resimler varsa yapay zekayı iki yolla uygulayabilirsiniz:
Katalogdan desteklenen bir görüntü ekleme modeli kullanın veya görüntüleri vektörleştirmek için Azure AI Vision çok modüllü eklemeLER API'sini seçin.
Resimlerdeki metni tanımak için optik karakter tanıma (OCR) kullanın. Bu seçenek, görüntülerden metin okumak için OCR becerisini çağırır.
Azure AI Search ve Azure AI kaynağınız aynı bölgede olmalıdır.
Görüntülerinizi vektörleştirin sayfasında, sihirbazın yapması gereken bağlantı türünü belirtin. Görüntü vektörleştirme için sihirbaz Azure AI Studio veya Azure AI Vision'a ekleme modellerine bağlanabilir.
Aboneliği belirtin.
Azure AI Studio model kataloğu için projeyi ve dağıtımı belirtin. Daha fazla bilgi için bu makalenin önceki bölümlerinde yer alan Ekleme modellerini ayarlama bölümüne bakın.
İsteğe bağlı olarak, ikili görüntüleri (örneğin, taranmış belge dosyaları) kırabilir ve metni tanımak için OCR kullanabilirsiniz.
Bu kaynakları kullanmanın faturalama etkisini kabul eden onay kutusunu seçin.
İleri'yi seçin.
Anlamsal derecelendirme ekleme
Gelişmiş ayarlar sayfasında, isteğe bağlı olarak sorgu yürütmenin sonunda sonuçları yeniden kırpmak için anlamsal derecelendirme ekleyebilirsiniz. Yeniden boyutlandırma, en ilgili eşlemeleri en üste yükseltir.
Yeni alanları eşleme
Gelişmiş ayarlar sayfasında, isteğe bağlı olarak yeni alanlar ekleyebilirsiniz. Varsayılan olarak, sihirbaz şu özniteliklere sahip aşağıdaki alanları oluşturur:
Alan | Şunlar için geçerlidir: | Açıklama |
---|---|---|
chunk_id | Metin ve görüntü vektörleri | Oluşturulan dize alanı. Aranabilir, alınabilir, sıralanabilir. Bu, dizinin belge anahtarıdır. |
parent_id | Metin vektörleri | Oluşturulan dize alanı. Alınabilir, filtrelenebilir. Öbek kaynağı olan üst belgeyi tanımlar. |
parça | Metin ve görüntü vektörleri | Dize alanı. Veri öbeklerinin okunabilir sürümü. Aranabilir ve alınabilir, ancak filtrelenebilir, modellenebilir veya sıralanabilir değildir. |
başlık | Metin ve görüntü vektörleri | Dize alanı. İnsan tarafından okunabilir belge başlığı, sayfa başlığı veya sayfa numarası. Aranabilir ve alınabilir, ancak filtrelenebilir, modellenebilir veya sıralanabilir değildir. |
text_vector | Metin vektörleri | Collection(Edm.single). Öbek vektör gösterimi. Aranabilir ve alınabilir, ancak filtrelenebilir, modellenebilir veya sıralanabilir değildir. |
Oluşturulan alanları veya özniteliklerini değiştiremezsiniz, ancak veri kaynağınız bunları sağlıyorsa yeni alanlar ekleyebilirsiniz. Örneğin, Azure Blob Depolama bir meta veri alanları koleksiyonu sağlar.
Yeni ekle'yi seçin.
Kullanılabilir alanlar listesinden bir kaynak alan seçin, dizin için bir alan adı sağlayın ve varsayılan veri türünü kabul edin veya gerektiğinde geçersiz kılın.
Meta veri alanları aranabilir, ancak alınamaz, filtrelenebilir, modellenebilir veya sıralanabilir değildir.
Şemayı özgün sürümüne geri yüklemek istiyorsanız Sıfırla'yı seçin.
Dizin oluşturmayı zamanlama
Gelişmiş ayarlar sayfasında, isteğe bağlı olarak dizin oluşturucu için bir çalıştırma zamanlaması belirtebilirsiniz.
- Gelişmiş ayarlar sayfasıyla işiniz bittiğinde İleri'yi seçin.
Sihirbazı tamamlama
Yapılandırmanızı gözden geçirin sayfasında, sihirbazın oluşturduğu nesneler için bir ön ek belirtin. Ortak bir ön ek düzenli kalmanıza yardımcı olur.
Oluştur'u belirleyin.
Sihirbaz yapılandırmayı tamamladığında aşağıdaki nesneleri oluşturur:
Veri kaynağı bağlantısı.
Vektör alanları, vektörleştiriciler, vektör profilleri ve vektör algoritmaları içeren dizin. Sihirbaz iş akışı sırasında varsayılan dizini tasarlayamaz veya değiştiremezsiniz. Dizinler 2024-05-01-preview REST API'sine uygundur.
Öbekleme için Metin Bölme becerisini ve vektörleştirme için ekleme becerisini içeren beceri kümesi. Ekleme becerisi, Azure OpenAI için AzureOpenAIEmbeddingModel becerisi veya Azure AI Studio model kataloğu için AML becerisidir. Beceri kümesi ayrıca verilerin veri kaynağındaki bir belgeden "alt" dizindeki karşılık gelen öbeklerine eşlenmesine olanak tanıyan dizin projeksiyonları yapılandırmasına sahiptir.
Alan eşlemeleri ve çıkış alanı eşlemeleri olan dizin oluşturucu (varsa).
Sonuçları denetleme
Arama Gezgini metin dizelerini giriş olarak kabul eder ve ardından vektör sorgu yürütmesi için metni vektörleştirir.
Azure portalında Arama Yönetimi>Dizinleri'ne gidin ve oluşturduğunuz dizini seçin.
İsteğe bağlı olarak Sorgu seçenekleri'ni seçin ve arama sonuçlarında vektör değerlerini gizleyin. Bu adım, arama sonuçlarınızın daha kolay okunmasını sağlar.
Vektör sorgusu parametresinde vektör sorgunuzun
text
metnini girebilmeniz için Görünüm menüsünde JSON görünümünü seçin.Sihirbaz, alanda vektör sorgusu veren ve en yakın beş komşuyu döndüren bir varsayılan sorgu
vector
sunar. Vektör değerlerini gizlemeyi tercih ettiyseniz, varsayılan sorgunuz alanı arama sonuçlarındanvector
dışlayan birselect
deyim içerir.{ "select": "chunk_id,parent_id,chunk,title", "vectorQueries": [ { "kind": "text", "text": "*", "k": 5, "fields": "vector" } ] }
text
değeri için yıldız işareti (*
) yerine sistem durumu planlarıyla ilgili bir soru (gibiWhich plan has the lowest deductible?
) yazın.Sorguyu çalıştırmak için Ara'yı seçin.
Beş eşleşme görünmelidir. Her belge, özgün PDF'nin bir öbekleridir. Alanında
title
öbek hangi PDF'den geldiği gösterilir.Belirli bir belgedeki tüm öbekleri görmek için
title
, belirli bir PDF için alana filtre ekleyin:{ "select": "chunk_id,parent_id,chunk,title", "filter": "title eq 'Benefit_Options.pdf'", "count": true, "vectorQueries": [ { "kind": "text", "text": "*", "k": 5, "fields": "vector" } ] }
Temizleme
Azure AI Search faturalanabilir bir kaynaktır. Artık ihtiyacınız yoksa ücretlerden kaçınmak için aboneliğinizden silin.
Sonraki adım
Bu hızlı başlangıçta tümleşik vektörleştirme için gerekli tüm nesneleri oluşturan Verileri içeri aktarma ve vektörleştirme sihirbazı tanıtıldı. Her adımı ayrıntılı olarak incelemek istiyorsanız tümleşik vektörleştirme örneğini deneyin.