Azure AI Search'te içeri aktarma sihirbazları
Azure AI Search'te, hemen sorgulamaya başlayabilmeniz için dizin oluşturmayı ve nesne tanımlarını otomatik hale getiren iki içeri aktarma sihirbazı vardır. Azure AI Search'te yeniyseniz, bu sihirbazlar kullanımınıza sunulan en güçlü özelliklerden biridir. Çok az çabayla, Azure AI Search'ün işlevlerinin çoğunu kullanan bir dizin oluşturma veya zenginleştirme işlem hattı oluşturabilirsiniz.
Verileri içeri aktarma sihirbazı , seçici olmayan iş akışlarını destekler. Ham belgelerden alfasayısal metin ayıklayabilirsiniz. Ayrıca, görüntü dosyalarından ve yapılandırılmamış verilerden yapı çıkartan ve aranabilir metin içeriği oluşturan, uygulanan yapay zeka ve yerleşik becerileri yapılandırabilirsiniz.
Verileri içeri aktarma ve vektörleştirme sihirbazı vektörleştirmeyi destekler. Ekleme modelinin mevcut dağıtımını belirtmeniz gerekir, ancak sihirbaz bağlantıyı yapar, isteği formüle eder ve yanıtı işler. Metin veya görüntü içeriğinden vektör içeriği oluşturur.
Kavram kanıtı testi için sihirbazı kullanıyorsanız, bu makalede sihirbazları daha etkili kullanabilmeniz için sihirbazların iç çalışmaları açıklanmaktadır.
Bu makale adım adım değildir. Yerleşik örnek verilerle sihirbazı kullanma konusunda yardım için bkz:
- Hızlı Başlangıç: Arama dizini oluşturma
- Hızlı Başlangıç: Metin çevirisi ve varlık beceri kümesi oluşturma
- Hızlı Başlangıç: Vektör dizini oluşturma
- Hızlı Başlangıç: görüntü arama (vektörler)
Sihirbazları başlatma
Azure portalında, panodan arama hizmeti sayfasını açın veya hizmetinizi hizmet listesinde bulun.
Üstteki hizmete Genel Bakış sayfasında Verileri içeri aktar'ı veya Verileri içeri aktar ve vektörleştir'i seçin.
Sihirbazlar tarayıcı penceresinde tamamen genişletilmiş olarak açılır, böylece daha fazla çalışma alanınız olur.
Verileri içeri aktar'ı seçtiyseniz, desteklenen bir veri kaynağından önceden oluşturulmuş bir veri örneği kullanmak için Örnekler seçeneğini belirleyebilirsiniz.
Dizin ve dizin oluşturucu oluşturmak için sihirbazdaki kalan adımları izleyin.
Ayrıca Azure Cosmos DB, Azure SQL Veritabanı, SQL Yönetilen Örneği ve Azure Blob Depolama gibi diğer Azure hizmetlerinden verileri içeri aktarmayı başlatabilirsiniz. Hizmet genel bakış sayfasının sol gezinti bölmesinde Azure AI Araması Ekle'yi arayın.
Sihirbaz tarafından oluşturulan nesneler
Sihirbaz, aşağıdaki tabloda yer alan nesnelerin çıkışını verir. Nesneler oluşturulduktan sonra portalda JSON tanımlarını gözden geçirebilir veya koddan çağırabilirsiniz.
Object | Açıklama |
---|---|
Dizin Oluşturucu | Veri kaynağı, hedef dizin, isteğe bağlı beceri kümesi, isteğe bağlı zamanlama ve hata teslimi ve temel 64 kodlaması için isteğe bağlı yapılandırma ayarlarını belirten bir yapılandırma nesnesi. |
Veri Kaynağı | Bağlantı bilgilerini Azure'da desteklenen bir veri kaynağında kalıcı hale ekler. Veri kaynağı nesnesi yalnızca dizin oluşturucularla birlikte kullanılır. |
Dizin | Tam metin araması ve diğer sorgular için kullanılan fiziksel veri yapısı. |
Beceri Kümesi | isteğe bağlı. Görüntü dosyalarındaki bilgileri analiz etme ve ayıklama da dahil olmak üzere içeriği düzenleme, dönüştürme ve şekillendirmeye yönelik eksiksiz yönergeler kümesi. Beceri kümeleri tümleşik vektörleştirme için de kullanılır. İş hacmi günlük dizin oluşturucu başına 20 işlem sınırının altına düşmediği sürece beceri kümesinin zenginleştirme sağlayan bir Azure AI çok hizmetli kaynağına başvuru içermesi gerekir. Tümleşik vektörleştirme için Azure AI Vision'ı veya Azure AI Studio model kataloğundaki bir ekleme modelini kullanabilirsiniz. |
Bilgi deposu | isteğe bağlı. Bağımsız analiz veya arama dışı senaryolarda aşağı akış işleme için çıkışları Azure Depolama'daki tablolarda ve bloblarda depolar. |
Sosyal haklar
Herhangi bir kod yazmadan önce, prototip oluşturma ve kavram kanıtı testi için sihirbazları kullanabilirsiniz. Sihirbazlar dış veri kaynaklarına bağlanır, verileri örnekleyip bir ilk dizin oluşturur ve ardından verileri içeri aktarıp isteğe bağlı olarak JSON belgeleri olarak Azure AI Search'te bir dizine vektörleştirir.
Beceri kümelerini değerlendiriyorsanız, sihirbaz çıktı alanı eşlemelerini işler ve kullanılabilir nesneler oluşturmak için yardımcı işlevler ekler. Ayrıştırma modu belirtirseniz metin bölme eklenir. Sihirbazın metin açıklamalarını görüntü içeriğiyle yeniden birleştirebilmesi için görüntü analizini seçerseniz metin birleştirme eklenir. Bilgi deposu seçeneğini belirlediyseniz geçerli projeksiyonları desteklemek için eklenen şekillendirici becerileri. Yukarıdaki görevlerin tümü öğrenme eğrisiyle birlikte gelir. Zenginleştirme konusunda yeniyseniz, bu adımların sizin için işlenmesi, çok fazla zaman ve çaba harcamanıza gerek kalmadan bir becerinin değerini ölçmenize olanak tanır.
Örnekleme, dizin şemasının çıkarıldığı işlemdir ve bazı sınırlamaları vardır. Veri kaynağı oluşturulduğunda sihirbaz, hangi sütunların veri kaynağının parçası olduğuna karar vermek için rastgele bir belge örneği seçer. Çok büyük veri kaynakları için saatler alabildiği için tüm dosyalar okunmayabilir. Bir dizin şemasında alan koleksiyonu oluşturmak için alan adı veya türü gibi bir belge seçimi verildiğinde kaynak meta veriler kullanılır. Kaynak verilerin karmaşıklığına bağlı olarak, ilk şemayı doğruluk açısından düzenlemeniz veya eksiksiz olması için genişletmeniz gerekebilir. Değişikliklerinizi dizin tanımı sayfasında satır içinde yapabilirsiniz.
Genel olarak, sihirbazı kullanmanın avantajları açıktır: gereksinimler karşılandığı sürece, dakikalar içinde sorgulanabilir bir dizin oluşturabilirsiniz. Verileri JSON belgeleri olarak seri hale getirme gibi dizin oluşturmanın bazı karmaşıklıkları sihirbaz tarafından işlenir.
Sınırlamalar
Sihirbazın sınırlamaları yoktur. Kısıtlamalar aşağıdaki gibi özetlenir:
Sihirbaz yinelemeyi veya yeniden kullanımı desteklemez. Sihirbazdan geçen her geçiş yeni bir dizin, beceri kümesi ve dizin oluşturucu yapılandırması oluşturur. Sihirbazda yalnızca veri kaynakları kalıcı hale gelebilir ve yeniden kullanılabilir. Diğer nesneleri düzenlemek veya daraltmak için, nesneleri silin ve baştan başlayın ya da yapıları değiştirmek için REST API'lerini veya .NET SDK'sını kullanın.
Kaynak içerik desteklenen bir veri kaynağında bulunmalıdır.
Örnekleme, kaynak verilerin bir alt kümesinin üzerindedir. Büyük veri kaynakları için sihirbazın alanları kaçırması mümkündür. Örnekleme yetersizse şemayı genişletmeniz veya çıkarsanan veri türlerini düzeltmeniz gerekebilir.
Portalda kullanıma sunulan yapay zeka zenginleştirmesi, yerleşik becerilerin bir alt kümesiyle sınırlıdır.
Sihirbaz tarafından oluşturulabilen bir bilgi deposu birkaç varsayılan projeksiyonla sınırlıdır ve varsayılan adlandırma kuralını kullanır. Adları veya projeksiyonları özelleştirmek istiyorsanız REST API veya SDK'lar aracılığıyla bilgi deposu oluşturmanız gerekir.
Güvenli bağlantılar
İçeri aktarma sihirbazları, portal denetleyicisini ve genel uç noktaları kullanarak giden bağlantılar oluşturur. Azure kaynaklarına özel bağlantı veya paylaşılan özel bağlantı üzerinden erişiliyorsa sihirbazları kullanamazsınız.
Kısıtlı genel bağlantılar üzerinden sihirbazları kullanabilirsiniz, ancak tüm işlevler kullanılamaz.
Bir arama hizmetinde, yerleşik örnek verilerin içeri aktarılması için genel uç nokta gerekir ve güvenlik duvarı kuralı yoktur.
Örnek veriler Microsoft tarafından belirli Azure kaynaklarında barındırılır. Portal denetleyicisi bu kaynaklara genel uç nokta üzerinden bağlanır. Arama hizmetinizi bir güvenlik duvarının arkasına koyarsanız, yerleşik örnek verileri almaya çalışırken şu hatayı alırsınız:
Import configuration failed, error creating Data Source
, ve ardından"An error has occured."
.Güvenlik duvarları tarafından korunan desteklenen Azure veri kaynaklarında, doğru güvenlik duvarı kurallarınız varsa verileri alabilirsiniz.
Azure kaynağı, bağlantıda kullanılan cihazın IP adresinden gelen ağ isteklerini kabul etmelidir. Ayrıca Azure AI Search'ün kaynağın ağ yapılandırmasında güvenilir bir hizmet olarak listelenmesi gerekir. Örneğin, Azure Depolama'da güvenilir hizmet olarak listeleyebilirsiniz
Microsoft.Search/searchServices
.Sağladığınız bir Azure AI çok hizmetli hesabına yapılan bağlantılarda veya Azure AI Studio veya Azure OpenAI'de dağıtılan ekleme modellerine yönelik bağlantılarda genel İnternet erişimi etkinleştirilmelidir. Bu Azure kaynakları, verileri içeri aktarma sihirbazında yerleşik becerileri veya verileri içeri aktarma ve vektörleştirme sihirbazındaki tümleşik vektörleştirmeyi kullandığınızda çağrılır.
Verileri içeri aktarma ve vektörleştirme sihirbazında hata şudur:
"Access denied due to Virtual Network/Firewall rules."
Verileri içeri aktarma sihirbazında hata yoktur, ancak beceri kümesi oluşturulmaz.
Güvenlik duvarı ayarları sihirbaz iş akışlarınızın başarılı olmasını engelliyorsa bunun yerine betikli veya programlı yaklaşımları göz önünde bulundurun.
İş Akışı
Sihirbaz dört ana adımda düzenlenmiştir:
Desteklenen bir Azure veri kaynağına bağlanın.
Kaynak verileri örnekleme tarafından çıkarsanan bir dizin şeması oluşturun.
İsteğe bağlı olarak, içerik ve yapıyı ayıklamak veya oluşturmak için uygulanan yapay zeka ekleyin. Bilgi deposu oluşturmaya yönelik girişler bu adımda toplanır.
Nesneleri oluşturmak, isteğe bağlı olarak verileri vektörleştirmek, bir dizine veri yüklemek, zamanlama ve diğer yapılandırma seçeneklerini ayarlamak için sihirbazı çalıştırın.
İş akışı bir işlem hattı olduğundan tek yönlüdür. Oluşturulan nesnelerin hiçbirini düzenlemek için sihirbazı kullanamazsınız, ancak izin verilen güncelleştirmeler için dizin veya dizin oluşturucu tasarımcısı ya da JSON düzenleyicileri gibi diğer portal araçlarını kullanabilirsiniz.
Sihirbazdaki veri kaynağı yapılandırması
Sihirbazlar, Azure AI Search dizin oluşturucuları tarafından sağlanan ve kaynağı örneklemek, meta verileri okumak, içeriği ve yapıyı okumak için belgeleri kırmak ve azure AI Search'e daha sonra içeri aktarmak için içeriği JSON olarak seri hale getirmek için donatılmış iç mantığı kullanarak desteklenen bir dış veri kaynağına bağlanır.
Farklı bir abonelikte veya bölgede desteklenen bir veri kaynağına bağlantı yapıştırabilirsiniz, ancak Var olan bir bağlantı seçiciyi seçin seçeneğinin kapsamı etkin abonelik olarak belirlenmiştir.
Tüm önizleme veri kaynaklarının sihirbazda kullanılabilir olması garanti değildir. Her veri kaynağı diğer değişiklikleri aşağı akışa ekleme potansiyeline sahip olduğundan, bir önizleme veri kaynağı yalnızca beceri kümesi tanımı ve dizin şeması çıkarımı gibi sihirbazdaki tüm deneyimleri tam olarak destekliyorsa veri kaynakları listesine eklenir.
Yalnızca tek bir tablodan, veritabanı görünümünden veya eşdeğer veri yapısından içeri aktarabilirsiniz, ancak yapı hiyerarşik veya iç içe alt yapılar içerebilir. Daha fazla bilgi için bkz . Karmaşık türleri modelleme.
Sihirbazdaki beceri kümesi yapılandırması
Beceri kümesi yapılandırması, veri kaynağı tanımından sonra gerçekleşir çünkü veri kaynağı türü belirli yerleşik becerilerin kullanılabilirliğini bildirir. Özellikle, Blob depolamadan dosya dizini oluştururken bu dosyaların ayrıştırma modunu tercih ederseniz yaklaşım analizinin kullanılabilir olup olmadığını belirleyebilirsiniz.
Sihirbaz, seçtiğiniz becerileri ekler. Ayrıca başarılı bir sonuca ulaşmak için gerekli olan diğer becerileri de ekler. Örneğin, bir bilgi deposu belirtirseniz sihirbaz projeksiyonları (veya fiziksel veri yapılarını) desteklemek için bir Şekillendirici becerisi ekler.
Beceri kümeleri isteğe bağlıdır ve yapay zeka zenginleştirmesini istemiyorsanız sayfanın alt kısmında atlanması gereken bir düğme vardır.
Sihirbazda dizin şeması yapılandırması
Sihirbazlar, alanları ve alan türünü algılamak için veri kaynağınızı örneklemektedir. Veri kaynağına bağlı olarak, meta verileri dizine eklemeye yönelik alanlar da sunabilir.
Örnekleme kesin olmayan bir alıştırma olduğundan, aşağıdaki noktalar için dizini gözden geçirin:
Alan listesi doğru mu? Veri kaynağınızda örneklemede alınmamış alanlar varsa, örneklemenin eksik olduğu yeni alanları el ile ekleyebilir ve arama deneyimine değer eklemeyen veya filtre ifadesinde veya puanlama profilinde kullanılmayan alanları kaldırabilirsiniz.
Veri türü gelen veriler için uygun mu? Azure AI Search varlık veri modeli (EDM) veri türlerini destekler. Azure SQL verileri için eşdeğer değerleri yerleştiren eşleme grafiği vardır. Daha fazla arka plan için bkz . Alan eşlemeleri ve dönüştürmeleri.
Anahtar görevi görecek tek bir alanınız var mı? Bu alan Edm.string olmalı ve belgeyi benzersiz olarak tanımlamalıdır. İlişkisel veriler için birincil anahtarla eşlenebilir. Bloblar için olabilir
metadata-storage-path
. Alan değerleri boşluk veya tireler içeriyorsa, Bu karakterler için doğrulama denetimini engellemek için Dizin Oluşturucu Oluştur adımındaki Gelişmiş seçenekler'in altındaki Temel-64 Kodlama Anahtarı seçeneğini ayarlamanız gerekir.Bu alanın bir dizinde nasıl kullanıldığını belirlemek için öznitelikleri ayarlayın.
Öznitelikler dizindeki alanların fiziksel ifadesini belirlediğinden, bu adımla zamanınızı ayırın. Öznitelikleri daha sonra program aracılığıyla bile değiştirmek istiyorsanız, neredeyse her zaman dizini bırakmanız ve yeniden oluşturmanız gerekir. Aranabilir ve Alınabilir gibi temel özniteliklerin depolama üzerinde önemsiz bir etkisi vardır. Filtrelerin etkinleştirilmesi ve önericilerin kullanılması depolama gereksinimlerini artırır.
Aranabilir, tam metin aramayı etkinleştirir. Serbest form sorgularında veya sorgu ifadelerinde kullanılan her alanın bu özniteliği olmalıdır. Çevrilmiş dizinler, Aranabilir olarak işaretlediğiniz her alan için oluşturulur.
Alınabilir, arama sonuçlarında alanı döndürür. Arama sonuçlarına içerik sağlayan her alan bu özniteliğe sahip olmalıdır. Bu alanın ayarlanması dizin boyutunu önemli ölçüde etkilemez.
Filterable , alana filtre ifadelerinde başvurulmasını sağlar. $filter ifadesinde kullanılan her alan bu özniteliğe sahip olmalıdır. Filtre ifadeleri tam eşleşmeler içindir. Metin dizeleri olduğu gibi kaldığından, ayrıntılı içeriğe uyum sağlamak için daha fazla depolama alanı gerekir.
Facetable , alanı çok yönlü gezinti için etkinleştirir. Yalnızca Filtrelenebilir olarak işaretlenen alanlar Da Facetable olarak işaretlenebilir.
Sıralanabilir, alanın bir sıralamada kullanılmasını sağlar. bir $Orderby ifadesinde kullanılan her alan bu özniteliğe sahip olmalıdır.
Sözcük temelli analize ihtiyacınız var mı? Aranabilir Edm.string alanları için, dil açısından gelişmiş dizin oluşturma ve sorgulama istiyorsanız bir Çözümleyici ayarlayabilirsiniz.
Varsayılan değer Standart Lucene'dir, ancak düzensiz isim ve fiil formlarını çözümleme gibi gelişmiş sözcük temelli işleme için Microsoft'un çözümleyicisini kullanmak istiyorsanız Microsoft İngilizce'yi seçebilirsiniz. Portalda yalnızca dil çözümleyicileri belirtilebilir. Özel bir çözümleyici veya Anahtar Sözcük, Desen vb. gibi dil dışı bir çözümleyici kullanıyorsanız, bunu program aracılığıyla oluşturmanız gerekir. Çözümleyiciler hakkında daha fazla bilgi için bkz . Dil çözümleyicileri ekleme.
Otomatik tamamlama veya önerilen sonuçlar biçiminde typeahead işlevselliğine ihtiyacınız var mı? Seçili alanlarda tür başlığı sorgu önerilerini ve otomatik tamamlamayı etkinleştirmek için Önericisi onay kutusunu seçin. Önericiler dizininizdeki belirteçli terimlerin sayısını ekler ve böylece daha fazla depolama alanı tüketir.
Sihirbazda dizin oluşturucu yapılandırması
Sihirbazın son sayfası dizin oluşturucu yapılandırması için kullanıcı girişleri toplar. Bir zamanlama belirtebilir ve veri kaynağı türüne göre değişiklik gösterecek diğer seçenekleri ayarlayabilirsiniz.
Sihirbaz dahili olarak aşağıdaki tanımları da ayarlar. Bu tanım, oluşturulduktan sonra dizin oluşturucuda görünmez:
- veri kaynağı ile dizin arasındaki alan eşlemeleri
- beceri çıktısı ile dizin arasındaki çıkış alanı eşlemeleri
Sonraki adımlar
Sihirbazın avantajlarını ve sınırlamalarını anlamanın en iyi yolu adım adım ilerleyebilmektir. Aşağıda her adımı açıklayan hızlı bir başlangıç verilmiştir.