Çevrimdışı değerlendirme

Önemli

20 Eylül 2023 tarihinden itibaren yeni Kişiselleştirme kaynakları oluşturamayacaksınız. Kişiselleştirme hizmeti 1 Ekim 2026'da kullanımdan kaldırılıyor.

Çevrimdışı değerlendirme, kodunuzu değiştirmeden veya kullanıcı deneyimini etkilemeden Kişiselleştirme Hizmeti'nin verimliliğini test etmenizi ve değerlendirmenizi sağlayan bir yöntemdir. Çevrimdışı değerlendirme, farklı derecelerin nasıl performans sergilediğini karşılaştırmak için uygulamanızdan Derece ve Ödül API'lerine gönderilen geçmiş verileri kullanır.

Çevrimdışı değerlendirme bir tarih aralığında gerçekleştirilir. Aralık, geçerli saat kadar geç bitebilir. Aralığın başlangıcı, veri saklama için belirtilen gün sayısından fazla olamaz.

Çevrimdışı değerlendirme aşağıdaki soruları yanıtlamanıza yardımcı olabilir:

  • Kişiselleştirme başarılı kişiselleştirme için ne kadar etkilidir?
    • Kişiselleştirme çevrimiçi makine öğrenmesi ilkesi tarafından elde edilen ortalama ödüller nelerdir?
    • Kişiselleştirme, uygulamanın varsayılan olarak yapabileceklerinin etkinliğiyle karşılaştırıldığında nasıldır?
    • Kişiselleştirme için rastgele bir seçimin karşılaştırmalı etkinliği ne olurdu?
    • El ile belirtilen farklı öğrenme ilkelerinin karşılaştırmalı etkinliği ne olurdu?
  • Bağlamın hangi özellikleri başarılı kişiselleştirmeye az çok katkıda bulunuyor?
  • Eylemlerin hangi özellikleri başarılı kişiselleştirmeye az çok katkıda bulunuyor?

Ayrıca, Çevrimdışı Değerlendirme, Kişiselleştirme'nin gelecekte sonuçları iyileştirmek için kullanabileceği daha iyileştirilmiş öğrenme ilkelerini keşfetmek için kullanılabilir.

Çevrimdışı değerlendirmeler, araştırma için kullanılacak olayların yüzdesiyle ilgili rehberlik sağlamaz.

Çevrimdışı değerlendirme önkoşulları

Temsilci çevrimdışı değerlendirmesi için dikkat edilmesi gereken önemli noktalar şunlardır:

  • Yeterli veriye sahip olun. Önerilen en düşük değer en az 50.000 olaydır.
  • Temsili kullanıcı davranışı ve trafiği olan dönemlerden veri toplayın.

İyileştirilmiş öğrenme ilkesini keşfetme

Kişiselleştirme, otomatik olarak daha uygun bir öğrenme ilkesi keşfetmek için çevrimdışı değerlendirme işlemini kullanabilir.

Çevrimdışı değerlendirmeyi gerçekleştirdikten sonra, Kişiselleştirici'nin geçerli çevrimiçi ilkeyle karşılaştırıldığında bu yeni ilkeyle karşılaştırmalı etkinliğini görebilirsiniz. Daha sonra, kişiselleştiricide hemen etkili olması için bu öğrenme ilkesini indirip Modeller ve İlke panelinde karşıya yükleyerek uygulayabilirsiniz. Ayrıca daha sonra analiz veya kullanım için de indirebilirsiniz.

Değerlendirmeye dahil edilen geçerli ilkeler:

Öğrenme ayarları Purpose
Çevrimiçi İlke Kişiselleştirme'de kullanılan geçerli Öğrenme İlkesi
Taban çizgisi Uygulamanın varsayılan değeri (Sıralama çağrılarında gönderilen ilk Eylem tarafından belirlendiği gibi)
Rastgele İlke Sağlanan eylemlerden her zaman rastgele Eylem seçimi döndüren bir sanal Sıralama davranışı.
Özel İlkeler Değerlendirme başlatılırken karşıya yüklenen ek Öğrenme İlkeleri.
İyileştirilmiş İlke Değerlendirme, iyileştirilmiş bir ilkeyi bulma seçeneğiyle başlatıldıysa, bu ilke de karşılaştırılır ve geçerli ilkenin yerine bunu indirebilir veya çevrimiçi öğrenme ilkesi yapabilirsiniz.

Çevrimdışı değerlendirme sonuçlarının ilgi düzeyini anlama

Çevrimdışı değerlendirme çalıştırdığınızda, sonuçların güvenilirlik sınırlarını analiz etmek çok önemlidir. Geniş olmaları, uygulamanızın ödül tahminlerinin kesin veya önemli olması için yeterli veri almadığı anlamına gelir. Sistem daha fazla veri biriktirdikçe ve daha uzun süreler boyunca çevrimdışı değerlendirmeler çalıştırdığınızda, güvenilirlik aralıkları daha da daraltılır.

Çevrimdışı değerlendirmeler nasıl yapılır?

Çevrimdışı Değerlendirmeler, Counterfactual Evaluation adlı bir yöntem kullanılarak yapılır.

Kişiselleştirici, kullanıcıların davranışlarının (ve dolayısıyla ödüllerin) geçmişe dönük tahminde bulunduğunu (Kullanıcıya gördüklerinden farklı bir şey gösterilmişse Kişiselleştiricinin neler olacağını bilemez) ve yalnızca ölçülen ödüllerden öğrenmek için oluşturulduğu varsayımı üzerine kurulmuştur.

Değerlendirmeler için kullanılan kavramsal süreç budur:

[For a given _learning policy), such as the online learning policy, uploaded learning policies, or optimized candidate policies]:
{
    Initialize a virtual instance of Personalizer with that policy and a blank model;

    [For every chronological event in the logs]
    {
        - Perform a Rank call

        - Compare the reward of the results against the logged user behavior.
            - If they match, train the model on the observed reward in the logs.
            - If they don't match, then what the user would have done is unknown, so the event is discarded and not used for training or measurement.

    }

    Add up the rewards and statistics that were predicted, do some aggregation to aid visualizations, and save the results.
}

Çevrimdışı değerlendirme yalnızca gözlemlenen kullanıcı davranışını kullanır. Bu işlem, özellikle uygulamanız çok sayıda eylemle Rank çağrıları yapıyorsa büyük hacimli verileri atar.

Özelliklerin değerlendirilmesi

Çevrimdışı değerlendirmeler, eylemler veya bağlam için belirli özelliklerin ne kadarının daha yüksek ödüller için tartıldığından haberdar olabilir. Bilgiler, verilen zaman aralığına ve verilere göre değerlendirme kullanılarak hesaplanır ve zamana göre farklılık gösterebilir.

Özellik değerlendirmelerine bakmanızı ve şunları sormanızı öneririz:

  • Uygulamanız veya sisteminiz daha etkili olan satırlar boyunca başka hangi ek özellikleri sağlayabilir?
  • Düşük etkinlik nedeniyle hangi özellikler kaldırılabilir? Düşük etkililik özellikleri makine öğrenmesine gürültü ekler.
  • Yanlışlıkla dahil edilen özellikler var mı? Bunlara örnek olarak şunlar verilebilir: kullanıcı tarafından tanımlanabilen bilgiler, yinelenen kimlikler vb.
  • Yasal düzenlemeler veya sorumlu kullanım konuları nedeniyle kişiselleştirmek için kullanılmaması gereken istenmeyen özellikler var mı? proxy (yani, yakın yansıtma veya bağıntı) istenmeyen özellikler var mı?

Sonraki adımlar

KişiselleştirmeyiYapılandırma Çevrimdışı Değerlendirme çalıştırma Kişiselleştirmenin Nasıl Çalıştığını Anlama