Azure AI Search'te anlamsal derecelendirme
Azure AI Search'te anlam dereceleyicisi, arama sonuçlarını yeniden ayarlamak için Microsoft'un dil anlama modellerini kullanarak aramanın ilgi düzeyini ölçülebilir şekilde geliştiren bir özelliktir. Bu makale, semantik dereceleyicinin davranışlarını ve avantajlarını anlamanıza yardımcı olacak üst düzey bir giriş niteliğindedir.
Anlam dereceleyicisi, kullanıma göre faturalanan premium bir özelliktir. Arka plan için bu makaleyi öneririz, ancak kullanmaya başlamayı tercih ederseniz bu adımları izleyin.
Not
Anlam dereceleyici, üretken yapay zeka veya vektörleri kullanmaz. Vektör desteği ve benzerlik araması arıyorsanız ayrıntılar için bkz . Azure AI Search'te vektör araması .
Anlamsal derecelendirme nedir?
Anlam dereceleyicisi, metin tabanlı sorgular, vektör sorguları ve karma sorgular için ilk BM25 dereceli veya RRF dereceli arama sonucunun kalitesini geliştiren sorgu tarafı özellikleri koleksiyonudur. Arama hizmetinizde etkinleştirdiğinizde anlam derecelendirmesi sorgu yürütme işlem hattını iki şekilde genişletir:
İlk olarak, BM25 veya Karşılıklı Rank Fusion (RRF) kullanılarak puanlanan ilk sonuç kümesine ikincil derecelendirme ekler. Bu ikincil derecelendirmede, en önemli sonuçları teşvik etmek için Microsoft Bing'den uyarlanmış çok dilli derin öğrenme modelleri kullanılır.
İkincisi, kullanıcının arama deneyimini geliştirmek için arama sayfasında işleyebileceğiniz yanıtta açıklamalı alt yazıları ve yanıtları ayıklar ve döndürür.
Anlamsal reranker'ın özellikleri şunlardır.
Yetenek | Açıklama |
---|---|
L2 derecelendirmesi | Önceden eklenen sonuçlara göre yeni bir ilgi puanı hesaplamak için sorgunun bağlamını veya anlamsal anlamını kullanır. |
Anlamsal açıklamalı alt yazılar ve vurgular | İçeriği en iyi özetleyen alanlardan ayrıntılı tümceleri ve tümcecikleri ayıklar ve kolay tarama için önemli bölümleri vurgular. Bir sonucu özetleyen resim yazıları, tek tek içerik alanları arama sonuçları sayfası için çok yoğun olduğunda yararlıdır. Vurgulanan metin, kullanıcıların bir eşleşmenin neden ilgili olarak değerlendirildiğini hızla belirleyebilmesi için en ilgili terimleri ve tümcecikleri yükseltir. |
Anlamsal yanıtlar | Semantik sorgudan döndürülen isteğe bağlı ve ek bir alt yapı. Soru gibi görünen bir sorguya doğrudan yanıt sağlar. Belgenin yanıt özelliklerine sahip bir metin olmasını gerektirir. |
Semantik dereceleyici nasıl çalışır?
Anlam dereceleyici bir sorguyu ve sonuçları Microsoft tarafından barındırılan dil anlama modellerine besler ve daha iyi eşleşmeleri tarar.
Aşağıdaki çizimde kavram açıklanmaktadır. "Sermaye" terimini göz önünde bulundurun. Bağlamın finans, hukuk, coğrafya veya dil bilgisi olmasına bağlı olarak farklı anlamlara sahiptir. Semantik dereceleyici, dil anlama yoluyla bağlamı algılayabilir ve sorgu amacına uygun sonuçları yükseltebilir.
Anlam derecelendirmesi hem kaynak hem de zaman açısından yoğundur. Bir sorgu işleminin beklenen gecikme süresi içinde işlemeyi tamamlamak için, yeniden boyutlandırma adımının mümkün olan en kısa sürede tamamlanması için anlam derecesine giren girişler bir araya gelir ve azaltılır.
Semantik derecelendirmenin üç adımı vardır:
- Girişleri toplama ve özetleme
- Anlam derecesini kullanarak sonuçları puanlama
- Çıkış yeniden kaydedilen sonuçlar, açıklamalı alt yazılar ve yanıtlar
Girişler nasıl toplanır ve özetlenir?
Anlamsal derecelendirmede, sorgu alt sistemi arama sonuçlarını özetleme ve derecelendirme modellerine giriş olarak geçirir. Derecelendirme modellerinin giriş boyutu kısıtlamaları olduğundan ve yoğun işlemeye sahip olduğundan, verimli işleme için arama sonuçlarının boyutlandırılması ve yapılandırılması (özetlenmiş) olması gerekir.
Anlam dereceleyici, bir metin sorgusundan BM25 dereceli bir sonuçla veya vektör veya karma sorgudan RRF dereceli bir sonuçla başlar. Yeniden boyutlandırma alıştırmasında yalnızca metin alanları kullanılır ve sonuçlar 50'den fazla olsa bile yalnızca ilk 50 sonuç semantik derecelendirmeye ilerler. Genellikle anlamsal derecelendirmede kullanılan alanlar bilgilendirici ve açıklayıcıdır.
Arama sonucundaki her belge için özetleme modeli en fazla 2.000 belirteç kabul eder ve burada bir belirteç yaklaşık 10 karakterdir. Girişler semantik yapılandırmada listelenen "title", "keyword" ve "content" alanlarından bir araya gelir.
Toplam uzunluğun özetleme adımının giriş gereksinimlerini karşıladığından emin olmak için aşırı uzun dizeler kırpılır. Bu kırpma alıştırması, semantik yapılandırmanıza öncelik sırasına göre alan eklemenin önemli olmasının nedenidir. Yoğun metin içeren çok büyük belgeleriniz varsa, üst sınırdan sonraki her şey yoksayılır.
Anlamsal alan Belirteç sınırı "title" 128 belirteç "anahtar sözcükler 128 belirteç "içerik" kalan belirteçler Özetleme çıktısı, her belge için, her alandan en ilgili bilgilerden oluşan bir özet dizesidir. Özet dizeler puanlama için dereceleyiciye ve resim yazıları ve yanıtlar için makine okuma kavrama modellerine gönderilir.
Anlam derecesine geçirilen her bir özet dizenin uzunluk üst sınırı 256 belirteçtir.
Derecelendirme nasıl puanlanır?
Puanlama, resim yazısı ve özet dizeden 256 belirteç uzunluğunu dolduran diğer tüm içerikler üzerinden yapılır.
Açıklamalı alt yazılar, sağlanan sorguya göre kavramsal ve anlamsal ilgi açısından değerlendirilir.
Her belgeye, verilen sorgu için belgenin anlamsal ilgisine göre bir @search.rerankerScore atanır. Puanlar 4 ile 0 (yüksekten düşüke) arasında değişir ve daha yüksek bir puan daha yüksek bir ilgi gösterir.
Puan Anlamı 4,0 Belge son derece alakalıdır ve soruyu tamamen yanıtlar, ancak metinde soruyla ilgili olmayan ek metinler olabilir. 3.0 Belge ilgili ancak tamamlanmasını sağlayacak ayrıntılar eksik. 2.0 Belge biraz ilgili; soruyu kısmen veya yalnızca sorunun bazı yönlerini ele alır. 1.0 Belge soruyla ilgilidir ve küçük bir bölümünü yanıtlar. 0,0 Belge ilgisiz. Eşleşmeler puana göre azalan sırada listelenir ve sorgu yanıtı yüküne eklenir. Yük yanıtlar, düz metin ve vurgulanmış resim yazıları ve alınabilir olarak işaretlediğiniz veya bir select yan tümcesinde belirttiğiniz alanları içerir.
Not
Herhangi bir sorgu için @search.rerankerScore dağıtımları, altyapı düzeyindeki koşullar nedeniyle küçük varyasyonlar sergileyebilir. Derecelendirme modeli güncelleştirmelerinin dağıtımı etkilediği de bilinmektedir. Bu nedenlerden dolayı, minimum eşikler için özel kod yazıyorsanız veya vektör ve karma sorgular için eşik özelliğini ayarlıyorsanız, sınırları çok ayrıntılı yapmayın.
Semantik dereceleyicinin çıkışları
Her özet dizeden, makine okuma kavrama modelleri en temsili olan pasajları bulur.
Çıkışlar şunlardır:
Belge için anlamsal bir resim yazısı. Her resim yazısı düz metin sürümünde ve vurgulama sürümünde kullanılabilir ve genellikle belge başına 200'den az sözcüktür.
Parametreyi
answers
belirttiğinizi varsayarsak isteğe bağlı bir anlamsal yanıt, sorgu bir soru olarak sunulur ve uzun dizede soruya olası bir yanıt sağlayan bir metin bulunur.
Açıklamalı alt yazılar ve yanıtlar her zaman dizininizdeki ayrıntılı metinlerdir. Bu iş akışında yeni içerik oluşturan veya oluşturan bir yapay zeka modeli yoktur.
Anlamsal özellikler ve sınırlamalar
Anlam dereceleyicisi daha yeni bir teknoloji olduğundan yapabilecekleri ve yapabilecekleri hakkında beklentileri belirlemek önemlidir. Yapabilecekleri:
Özgün sorgunun amacına benzer şekilde daha yakın olan eşleşmeleri yükseltin.
Resim yazısı ve yanıt olarak kullanılacak dizeleri bulun. Açıklamalı alt yazılar ve yanıtlar yanıtta döndürülür ve arama sonuçları sayfasında işlenebilir.
Semantik derecele ilgili sonuçları bulmak için semantik dereceleyicinin gerçekleştirebildiği şey sorguyu tüm korpus üzerinde yeniden çalıştırmaktır. Anlamsal derecelendirme, varsayılan derecelendirme algoritması tarafından puanlanan ilk 50 sonuçtan oluşan mevcut sonuç kümesini yeniden oluşturur. Ayrıca semantik dereceleyici yeni bilgiler veya dizeler oluşturamaz. Açıklamalı alt yazılar ve yanıtlar içeriğinizden ayrıntılı olarak ayıklanır, böylece sonuçlar yanıt benzeri metin içermiyorsa dil modelleri bu metni üretmez.
Anlamsal derecelendirme her senaryoda yararlı olmasa da, bazı içerikler özelliklerinden önemli ölçüde yararlanabilir. Anlam derecesindeki dil modelleri, bilgi açısından zengin ve prose olarak yapılandırılmış aranabilir içerik üzerinde en iyi şekilde çalışır. Açıklayıcı içerik içeren bir bilgi bankası, çevrimiçi belge veya belge semantik dereceleyici özelliklerinden en çok kazanç elde eder.
Temel alınan teknoloji Bing ve Microsoft Research'dür ve eklenti özelliği olarak Azure AI Search altyapısıyla tümleşiktir. Semantik dereceleyiciyi arkalayan araştırma ve yapay zeka yatırımları hakkında daha fazla bilgi için bkz . Bing'den yapay zeka azure yapay zeka aramasını nasıl güçlendiriyor (Microsoft Research Blogu).
Aşağıdaki videoda özelliklere genel bir bakış sunulmaktadır.
Kullanılabilirlik ve fiyatlandırma
Semantik dereceleyici, bölgesel kullanılabilirliğe bağlı olarak Temel ve daha yüksek katmanlardaki arama hizmetlerinde kullanılabilir.
Anlam derecesini etkinleştirdiğinizde, özellik için bir fiyatlandırma planı seçin:
- Daha düşük sorgu birimlerinde (aylık 1000'in altında), anlam derecelendirmesi ücretsizdir.
- Daha yüksek sorgu hacimlerinde standart fiyatlandırma planını seçin.
Azure AI Search fiyatlandırma sayfası, farklı para birimleri ve aralıklar için faturalama oranını gösterir.
Sorgu istekleri dahil queryType=semantic
edildiğinde ve arama dizesi boş olmadığında (örneğin, search=pet friendly hotels in New York
) anlam dereceleyici ücretleri alınır. Arama dizeniz boşsa ()search=*
queryType semantik olarak ayarlansa bile ücretlendirilemezsiniz.
Semantik derecelemeyi kullanmaya başlama
Bölgesel kullanılabilirliği denetleyin.
Arama hizmetinizin Temel veya daha yüksek olduğunu doğrulamak için Azure portalında oturum açın.
Anlam derecesini etkinleştirin ve bir fiyatlandırma planı seçin.
Arama dizininde anlam derecesini yapılandırın.
Anlamsal açıklamalı alt yazılar ve vurgular döndürmek için sorguları ayarlayın.