Büyük dil modelleri (LLM'ler) ve uygulamaları için kırmızı ekip oluşturma planlama
Bu kılavuz, büyük dil modeli (LLM) ürün yaşam döngüsü boyunca sorumlu yapay zeka (RAI) riskleri için kırmızı ekip oluşturmayı ayarlamayı ve yönetmeyi planlamaya yönelik bazı olası stratejiler sunar.
Kırmızı ekip oluşturma nedir?
Kırmızı ekip oluşturma terimi geçmişte güvenlik açıklarını test etme amaçlı sistematik saldırgan saldırıları tanımlamıştır. LLM'lerin artmasıyla birlikte, bu terim geleneksel siber güvenliğin ötesine geçti ve yapay zeka sistemlerinin çeşitli araştırma, test ve saldırı türlerini açıklamak için yaygın kullanımda gelişti. LLM'ler ile hem zararsız hem de saldırgan kullanım zararlı olabilecek çıkışlar üretebilir. Bu çıkışlar nefret söylemi, şiddeti teşvik etme veya yüceltme veya cinsel içerik gibi zararlı içerikler de dahil olmak üzere birçok biçimde gerçekleşebilir.
RAI kırmızı grubu oluşturma neden önemli bir uygulamadır?
Kırmızı ekip oluşturma, LLM'leri kullanarak sistemlerin ve özelliklerin sorumlu bir şekilde geliştirilmesinde en iyi uygulamadır. Sistematik ölçüm ve azaltma çalışmalarının yerini almasa da, kırmızı takımlar zararları ortaya çıkarmak ve tanımlamak için yardımcı olur ve buna karşılık, azaltmaların etkinliğini doğrulamak için ölçüm stratejilerini etkinleştirir.
Microsoft, Azure OpenAI Hizmeti modelleri için kırmızı ekip oluşturma alıştırmaları ve güvenlik sistemleri (içerik filtreleri ve diğer risk azaltma stratejileri dahil) gerçekleştirmiş olsa da (bu Sorumlu yapay zeka uygulamalarına genel bakış bölümüne bakın), her LLM uygulamasının bağlamı benzersiz olacaktır ve ayrıca aşağıdakiler için kırmızı ekip oluşturma işlemi gerçekleştirmeniz gerekir:
LLM temel modelini test edin ve uygulamanızın bağlamı göz önüne alındığında mevcut güvenlik sistemlerinde boşluk olup olmadığını belirleyin.
Mevcut varsayılan filtrelerdeki veya azaltma stratejilerindeki eksiklikleri belirleyin ve azaltın.
İyileştirmeler yapmak için hatalarla ilgili geri bildirim sağlayın.
Kırmızı ekip oluşturmanın sistematik ölçümün yerine geçmediğini unutmayın. En iyi uygulama, sistematik ölçümler gerçekleştirmeden ve azaltmaları uygulamadan önce ilk el ile kırmızı grup oluşturma turunu tamamlamaktır. Yukarıda vurgulandığı gibi, RAI kırmızı ekip oluşturmanın amacı zararları belirlemek, risk yüzeyini anlamak ve ölçülmesi ve azaltılması gerekenleri bilgilendirebilecek zararlar listesini geliştirmektir.
Kırmızı grup oluşturma LLM'lerini kullanmaya başlama ve sürecinizi planlama burada anlatılır. İleri düzey planlama, üretken bir kırmızı ekip oluşturma alıştırması için kritik öneme sahiptir.
Test etmeden önce
Plan: Testi kim yapacak?
Farklı bir grup kırmızı ekip üyesini bir araya getirme
Ürününüzün etki alanı için insanların deneyimi, demografik bilgileri ve uzmanlık alanları (örneğin, yapay zeka uzmanları, sosyal bilimler, güvenlik) açısından kırmızı ekip çalışanlarının ideal bileşimini belirleyin. Örneğin, sağlık hizmetleri sağlayıcılarına yardımcı olacak bir sohbet botu tasarlarsanız, tıbbi uzmanlar bu etki alanındaki riskleri belirlemeye yardımcı olabilir.
Hem iyi huylu hem de saldırgan fikirlere sahip kırmızı ekipçileri işe alma
Saldırgan bir düşünce yapısına ve güvenlik testi deneyimine sahip kırmızı ekiplere sahip olmak, güvenlik risklerini anlamak için gereklidir, ancak uygulama sisteminizin sıradan kullanıcıları olan ve geliştirme sürecinde yer almamış olan kırmızı ekip oluşturucular, normal kullanıcıların karşılaşabileceği zararlar hakkında değerli bakış açıları getirebilir.
Zararlara ve/veya ürün özelliklerine kırmızı takım atayın
Belirli zarar türlerini araştırmak için özel uzmanlığa sahip RAI kırmızı ekip ekipçileri atayın (örneğin, güvenlik konusu uzmanları jailbreakleri, meta istemi ayıklamayı ve siber saldırılarla ilgili içeriği araştırabilir).
Birden fazla test turu için her bir turda her bir zarara farklı bakış açıları elde etmek ve yaratıcılığı korumak için kırmızı takım atamaları arasında geçiş yapıp yapmamaya karar verin. Ödevleri değiştiriyorsanız, kırmızı ekip ekipçilerinin yeni atanan zararlarıyla ilgili yönergelere hız vermeleri için zaman tanıyın.
Sonraki aşamalarda, uygulama ve kullanıcı arabirimi geliştirildiğinde, uygulamanın tamamının kapsamını sağlamak için uygulamanın belirli bölümlerine (yani özellikler) kırmızı ekip oluşturucular atamak isteyebilirsiniz.
Her kırmızı ekip oluşturucus un ne kadar zaman ve çaba ayırması gerektiğini düşünün (örneğin, zararsız senaryolar için yapılan testlerin saldırgan senaryolar için yapılan testlerden daha az zamana ihtiyacı olabilir).
Kırmızı takımlara şu bilgileri sağlamak yararlı olabilir:
- Şunları içerebilecek yönergeleri temizleyin:
- Verilen kırmızı takım oluşturma turunun amacını ve hedefini açıklayan giriş; test edilecek ürün ve özellikler ile bunlara nasıl erişileceği; test etmek için hangi tür sorunlar; test daha hedefliyse kırmızı ekipçilerin odak alanları; her kırmızı takım oyuncusu test için ne kadar zaman ve çaba harcamalıdır; sonuçları kaydetme; ve sorularla iletişim kuracak kişileri seçin.
- Örnekleri ve bulguları kaydetmek için aşağıdakiler gibi bilgiler de dahil olmak üzere bir dosya veya konum:
- Bir örneğin ortaya çıktığı tarih; yeniden üretilebilirlik amacıyla varsa giriş/çıkış çifti için benzersiz bir tanımlayıcı; giriş istemi; çıkışın açıklaması veya ekran görüntüsü.
Plan: Test etmek için gerekenler
Bir uygulama temel model kullanılarak geliştirildiğinden, birkaç farklı katmanda test etmeniz gerekebilir:
Uygulama sisteminiz bağlamında çözülmesi gerekebilecek boşlukları belirlemek için güvenlik sistemi bulunan LLM temel modeli. (Test genellikle bir API uç noktası üzerinden yapılır.)
Uygulamanız. (Test en iyi kullanıcı arabirimi aracılığıyla yapılır.)
Hem LLM temel modeli hem de uygulamanız, risk azaltmadan önce ve sonra gerçekleşir.
Aşağıdaki öneriler, kırmızı ekip oluşturma sırasında çeşitli noktalarda nelerin test edileceğini seçmenize yardımcı olur:
Risk yüzeyini anlamak, zararları belirlemek ve ürününüz için RAI risk azaltmalarının geliştirilmesine yol göstermek için temel modeli test ederek başlayabilirsiniz.
RAI risk azaltmalarının etkinliğini değerlendirmek için ürününüzün sürümlerini RAI risk azaltmaları ile ve olmadan yinelemeli olarak test edin. (El ile kırmızı ekip oluşturmanın yeterli değerlendirme olmadığını unutmayın; sistematik ölçümleri de kullanın, ancak yalnızca el ile kırmızı ekip oluşturmanın ilk turunu tamamladıktan sonra kullanın.)
Bu gerçek dünya kullanımına en çok benzediğinden, üretim kullanıcı arabiriminde mümkün olduğunca çok uygulama testi gerçekleştirin.
Sonuçları bildirirken test için hangi uç noktaların kullanıldığını net bir şekilde belirleyin. Test işlemi ürün dışında bir uç noktada yapıldığında, üretim uç noktasında veya kullanıcı arabiriminde sonraki turlarda yeniden test etmeyi göz önünde bulundurun.
Plan: Test etme
Çok çeşitli zararları ortaya çıkarmak için açık uçlu testler yapın.
Herhangi bir sorunlu içeriği keşfeden ve belgeleyerek (belirli zararların örneklerini bulmalarını istemek yerine) RAI kırmızı ekip ekiplerinin avantajı, risk yüzeyini anlamanızdaki kör noktaları ortaya çıkararak çok çeşitli sorunları yaratıcı bir şekilde keşfetmelerini sağlar.
Açık uçlu testten zararların listesini oluşturun.
- Zararların tanımları ve örnekleriyle birlikte bir zarar listesi oluşturmayı göz önünde bulundurun.
- Sonraki test turlarında kırmızı takımlara kılavuz olarak bu listeyi sağlayın.
Kılavuzlu kırmızı ekip oluşturma ve yineleme yapma: Listede zarar olup olmadığını denetlemeye devam edin; yüzeye yeni zararlar tanımlamak.
Varsa bir zarar listesi kullanın ve bilinen zararlar ve bunların risk azaltmalarının etkinliği için teste devam edin. Bu süreçte büyük olasılıkla yeni zararları tespit edebilirsiniz. Bunları listeye tümleştirin ve yeni tanımlanan zararları ele almak için ölçüm ve azaltma önceliklerini kaydırmaya açık olun.
Yinelemeli testlere öncelik vermek için hangi zararları planlayın. Zararların önem derecesi ve ortaya çıkma olasılıklarının daha yüksek olduğu bağlam dahil ancak bunlarla sınırlı olmamak üzere, öncelik belirlemenizi bilgilendiren çeşitli faktörler vardır.
Plan: Verileri kaydetme
Hangi verileri toplamanız gerektiğine ve hangi verilerin isteğe bağlı olduğuna karar verin.
Kırmızı takım oluşturucuların hangi verileri kaydetmesi gerektiğine karar verin (örneğin, kullandıkları giriş; sistemin çıkışı; varsa, örneği gelecekte yeniden oluşturmak için benzersiz bir kimlik ve diğer notlar).)
Kritik bilgileri kaçırmadan aşırı kırmızı ekip oluşturuculardan kaçınmak için topladığınız verilerle stratejik olun.
Veri toplama için yapı oluşturma
Paylaşılan Excel elektronik tablosu genellikle kırmızı grup oluşturma verilerini toplamak için en basit yöntemdir. Bu paylaşılan dosyanın avantajlarından biri, kırmızı ekip gruplarının kendi testlerine yönelik yaratıcı fikirler elde etmek ve verilerin çoğaltılmasını önlemek için birbirlerinin örneklerini gözden geçirmeleridir.
Test sırasında
Kırmızı ekip oluşturma devam ederken etkin beklemede kalma planı
- Kırmızı takımlara yönergeler ve erişim sorunları konusunda yardımcı olmaya hazır olun.
- Elektronik tablodaki ilerleme durumunu izleyin ve kırmızı takımcılara zamanında anımsatıcılar gönderin.
Her test turundan sonra
Rapor verileri
Düzenli aralıklarla ilgili kısa bir raporu şu önemli paydaşlarla paylaşın:
En çok tanımlanan sorunları listeler.
Ham verilere bir bağlantı sağlar.
Yaklaşan turlar için test planının önizlemesini gösterir.
Kırmızı ekip oluşturucuları kabul eder.
Diğer ilgili bilgileri sağlar.
Tanımlama ve ölçüm arasında ayrım
Raporda, RAI kırmızı ekip oluşturmanın rolünün risk yüzeyini ortaya çıkarmak ve anlamak olduğunu ve sistematik ölçüm ve sıkı risk azaltma çalışmalarının yerine geçmediğini açık bir şekilde açıklayıp açık bir şekilde ifade edin. kişilerin belirli örnekleri, söz konusu zararın kalıcılığı için bir ölçüm olarak yorumlamaması önemlidir.
Ayrıca, rapor sorunlu içerik ve örnekler içeriyorsa içerik uyarısı eklemeyi göz önünde bulundurun.
Bu belgedeki kılavuzlar, yasal tavsiye sağlamak üzere tasarlanmamıştır ve bu kılavuzda sağlandığı düşünülmemelidir. Faaliyette olduğunuz yargı yetkisi, yapay zeka sisteminiz için geçerli olan çeşitli yasal düzenlemelere veya yasal gereksinimlere sahip olabilir. Bu önerilerin tümünün her senaryo için uygun olmadığını ve buna karşılık bu önerilerin bazı senaryolar için yetersiz olabileceğini unutmayın.