Makine Öğrenmesinde Hata Modları

Microsoft Corporation Berkman Klein İnternet ve Toplum Merkezi, Harvard Üniversitesi

Ram Shankar Siva Kumar

David O’Brien

Jeffrey Snover

Kendra Albert

Salome Viljoen

2019 Kasım

Giriş ve Arka Plan

Son iki yıldır algoritmalar ve verilere yönelik saldırılar nedeniyle Makine Öğrenmesinin (ML) nasıl başarısız olabileceği konusunda 200'den fazla rapor yazıldı. Saldırgan olmayan hata modlarını da eklediğimizde bu rakam iyice artıyor. Bu raporları çokluğu, mühendisleri, avukatları ve politika yapıcıları bir yana bıraksak bile ML uygulayıcılarının ML sistemlerine karşı yapılan saldırılarla ve savunmalarla başa çıkmasını güçleştirdi. Öte yandan bu sistemler yayıldıkça, nasıl başarısız olduklarını (bir saldırganın müdahalesiyle mi yoksa sistemin kendi tasarımına bağlı olarak mı) anlama gereği iyice önem kazandı. Bu belgenin amacı bu hata modlarının her ikisini de tek bir tabloda birleştirmektir.

  • Kasıtlı hatalar: Burada hedeflerine ulaşmak, sonucu yanlış sınıflandırmak, gizli eğitim verilerini çıkarsamak veya temel algoritmayı çalmak için sistemi bozmaya çalışan etkin bir saldırgan hataya neden olur.

  • Kasıtsız hatalar: Burada hatanın nedeni ML sisteminin biçimsel olarak doğru ama tamamen güvensiz bir sonuç üretmesidir.

Kasıtlı hata modlarını[1],[2] ve kasıtsız hata modlarını[3],[4] tek tek vurgulayan başka taksonomiler ve çerçeveler olduğunu belirtmek isteriz. Bizim sınıflandırmamız iki ayrı hata modunu aynı konumda bir araya getirir ve şu gereksinimlere yöneliktir:

  1. Yazılım geliştiricileri, güvenlik olaylarına yanıt verenleri, avukatları ve politika yapıcıları bu sorun hakkında konuşabilmeleri için ortak bir dille donatma gereksinimi. Geçen yıl taksonominin ilk sürümü geliştirildikten sonra, paydaşların çerçevemizi nasıl kullanabileceğini anlamak için Microsoft'un, 23 dış iş ortağının, standart kuruluşunun ve kamu kurumlarının güvenlik ve ML ekipleriyle birlikte çalıştık. Bu kullanılabilirlik çalışması ve paydaş geri bildirimleri temelinde çerçevemizde yinelemeler yaptık.

    Sonuçlar: ML hata modu sunulduğunda, yazılım geliştiricilerinin ve avukatların ml hata modlarını zihinsel olarak veri sızdırma gibi geleneksel yazılım saldırılarına eşlediğini gözlemledik. Dolayısıyla bu çalışma boyunca makine öğrenmesi hata modlarının teknoloji ve ilke açısından anlam olarak geleneksel yazılım hatalarından farklı olduğunu vurgulamaya çalıştık.

  2. Mühendislerin mevcut yazılım geliştirme ve güvenlik uygulamaları üzerine kurabilecekleri ve bu uygulamalarla tümleştirebilecekleri ortak bir platform gereksinimi. Geniş anlamda, taksonominin bir eğitim aracından fazlası olmasını, somut mühendislik sonuçları ortaya koymasını istedik.

    Sonuçlar: Bu taksonomiyi mercek olarak kullanan Microsoft, kuruluşun tamamı için Güvenlik Geliştirme Yaşam Döngüsü sürecini değiştirdi. Özel olarak, Microsoft'taki veri bilimcileri ve güvenlik mühendisleri artık bu taksonominin ortak dilini paylaşıyor ve bu sayede ML sistemlerini üretime dağıtmadan önce daha etkili tehdit modellemesi yapabiliyor. Güvenlik Olayı Yanıtlayıcılarının da bu ML'ye özgü yeni tehditleri önceliklendirmek için bir hata çubuğu var ve bu, Microsoft Güvenlik Yanıt Merkezi ve tüm Microsoft ürün ekipleri tarafından güvenlik açıklarını önceliklendirmek ve yanıtlamak için standart süreç olarak kullanılıyor.

  3. Politika yapanlar ve avukatlar arasında bu saldırıları açıklamak için ortak bir sözlük gereksinimi. Farklı ML hata modlarını açıklamanın ve bunların verdiği zararların nasıl düzene sokulacağını analiz etmenin, bilinçli bir politikaya doğru anlamlı bir ilk adım olduğuna inanıyoruz.

    Sonuçlar: Bu taksonomi, disiplinler arası geniş bir kitle için yazılmıştır; bu nedenle, genel ML/AI perspektifinden sorunlara bakan ilke oluşturucuların yanı sıra yanlış bilgi/sağlık hizmetleri gibi belirli etki alanları hata modu kataloğunu yararlı bulmalıdır. Ayrıca hata modlarını ele alırken tüm uygun yasal müdahaleleri de vurguladık.

Ayrıca Microsoft'un AI/ML Sistemleri ve Bağımlılıklarında Tehdit Modelleme ve Makine Öğrenmesi Güvenlik Açıkları için SDL Hata Çubuğu Özetleri belgelerine de bakın.

Bu belgeyi kullanma

Başlangıç olarak, bunun zamanla tehdit sahnesindeki gelişmelere uygun olarak geliştirilecek dinamik bir belge olduğunu kabul ediyoruz. Ayrıca savunmalar senaryoya özgü ve göz önüne alınan tehdit modeli ve sistem mimarisine bağlı olduğundan, burada söz konusu hata modlarına yönelik teknolojik tehdit azaltma reçeteleri vermiyoruz. Tehdit azaltmaya yönelik sunulan seçenekler, bu savunmaların da zamanla gelişmesi beklentisiyle mevcut araştırmalara dayanıyor.

Mühendisler için, olası hata modlarına genel bakış bilgilerine göz atılmasını ve tehdit modelleme belgesine geçilmesini öneriyoruz. Bu şekilde mühendisler tehditleri, saldırıları, güvenlik açıklarını belirleyebilir ve mümkün olduğunda karşı önlemleri planlamak için çerçeveyi kullanabilir. Ardından sizi hem taksonomideki bu yeni güvenlik açıklarına hem de geleneksel yazılım güvenlik açıklarına eşlenen ve her ML güvenlik açığı için bir derecelendirme (kritik, önemli gibi) sağlayan hata çubuğuna yönlendiriyoruz. Bu hata çubuğu mevcut olay yanıtlama süreçlerine/playbook'larına kolayca tümleştirilir.

Avukatlar ve politika yapıcılar için, bu belge ML hata modlarını düzenliyor ve burada yapılan çalışma gibi politika seçeneklerini inceleyen herkese uygun olacak şekilde önemli sorunları analiz etmeye yönelik bir çerçeve sunuyor[5],[6]. Özel olarak, hataları ve sonuçlarını politika yapıcılarının nedenler arasında ayrım yapmaya başlayabilmesini sağlayacak ve bu sayede kamu politikası girişimlerini ML güvenliğini artırmak için bilgilendirecek şekilde kategorilere ayırdık. Politika yapıcıların bu kategorileri kullanarak mevcut yasal sistemlerin yeni ortaya çıkan sorunları nasıl yeterli düzeyde yakalayabileceği (veya yakalayamayacağı), geçmişte hangi yasal sistemlerin veya politika çözümlerinin benzer zararlarla uğraşmış olabileceği ve hangi noktada insan hakları sorunlarına özellikle duyarlı olmamız gerektiği konularının ayrıntılarını ortaya koymaya başlayabileceğini umuyoruz.

Belge Yapısı

Kasıtlı Hata Modları ve Kasıtsız Hata Modları bölümlerinin her ikisinde de saldırının kısa bir tanımını ve literatürden aydınlatıcı bir örnek sağladık.

Kasıtlı Hata Modları bölümünde ek alanlar sağladık:

  1. Saldırı ML sisteminde neyin güvenliğini aşmaya çalışıyor: Gizlilik mi, Bütünlük mü yoksa Kullanılabilirlik mi? Gizliliği, ML sistemi bileşenlerinin (veri, algoritma, model) yalnızca yetkili taraflarca erişilebilir olmasını sağlama olarak tanımladık; Bütünlük, ML sisteminin yalnızca yetkili taraflarca değiştirilebilmesini sağlama olarak tanımlandı; Kullanılabilirlik, ML sisteminin yetkili taraflarca erişilebilir olmasını sağlama olarak tanımlandı. Gizlilik, Bütünlük ve Kullanılabilirlik birlikte CIA üçlemesi olarak adlandırıldı. Her kasıtlı hata modu için CIA üçlemesinden hangisinin güvenliğinin tehlikeye girdiğini belirlemeye çalıştık.

  2. Bu saldırıyı (kara kutu veya beyaz kutu) yapmak için ne kadar bilgi gerekiyor? Kara kutu stili saldırılarda, saldırganın eğitim verilerine doğrudan erişimi, kullanılan ML algoritmasıyla ilgili bilgisi ve modelin kaynak koduna erişimi YOK. Saldırgan yalnızca modeli sorguluyor ve yanıtı gözlemliyor. Beyaz kutu stili saldırılarda, saldırganın ML algoritmasıyla ilgili bilgisi veya model kaynak koduna erişimi var.

  3. Saldırganın geleneksel teknolojik erişim/yetkilendirme kavramını ihlal edip etmediği konusunda yorum.

Kasıtlı Gerekçeli Hata Özeti

Senaryo Numarası
Saldırı
Genel bakış
Geleneksel teknolojik erişim/yetkilendirme kavramını ihlal ediyor mu?
1
Pertürbasyon saldırısı
Saldırgan uygun yanıtı almak için sorguda değişiklik yapar
Hayır
2
Zehirleme saldırısı
Saldırgan istenen sonucu elde etmek için ML sistemlerinin eğitim aşamasını kirletir
Hayır
3
Modeli Ters Çevirme
Saldırgan dikkatli sorgular aracılığıyla modelde kullanılan gizli bilgileri kurtarır
Hayır
4
Üyelik Çıkarımı
Saldırgan belirli bir veri kaydının modelin eğitim veri kümesinin bir parçası olup olmadığını belirleyebilir
Hayır
5
Model Hırsızlığı
Saldırgan dikkatle hazırlanmış sorgular aracılığıyla modeli kurtarabilir
Hayır
6
ML sistemini yeniden programlama
ML sisteminin amacını yeniden belirleyerek aslında programlanmadığı bir etkinliği gerçekleştirmesini sağlama
Hayır
7
Fiziksel Ortamdaki Saldırgan Örnek
Saldırgan, fiziksel etki alanına saldırgan örnekleri subvertML sistemine getirir; örneğin: yüz tanıma sistemini kandırmak için 3d özel gözlük yazdırma
Hayır
8
Eğitim verilerini kurtaran kötü amaçlı ML sağlayıcısı
Kötü amaçlı ML sağlayıcısı müşteri tarafından kullanılan modeli sorgulayabilir ve müşterinin eğitim verilerini kurtarabilir
Evet
9
ML tedarik zincirine saldırma
Saldırgan kullanım için indiriliyor gibi ML modellerinin güvenliğini aşar
Evet
10
LM'de Arka Kapı
Kötü amaçlı ML sağlayıcısı algoritmalarda belirli bir tetikleyiciyle etkinleştirmek için arka kapı oluşturur
Evet
11
Yazılım Bağımlılıklarındaki Açıklardan Yararlanma
Saldırgan ML sistemlerinin kafasını karıştırmak/bu sistemleri denetlemek için arabellek taşması gibi geleneksel yazılım açıklarını kullanır
Evet

Kasıtsız Hata Özeti

Senaryo No
Hata
Genel Bakış
12
Ödül Korsanlığı
Belirtilen ödülle gerçek ödül arasındaki uyumsuzluktan dolayı Pekiştirmeye Dayalı Öğrenme (RL) sistemleri amaçlanmadığı bir şekilde davranıyor
13
Yan Etkiler
RL sistemi hedefine ulaşmaya çalışırken ortamı kesintiye uğratıyor
14
Dağılım kaymaları
Sistem bir tür ortamda test edildi ama farklı türlerdeki ortamlara uyum sağlayamıyor
15
Doğal Saldıgan Örnekler
Saldırganın pertürbasyonları olmadan ML sistemi sabit negatif madencilik nedeniyle başarısız oluyor
16
Ortak Bozulma
Sistem eğme, yakınlaştırma veya kirli resimler gibi ortak bozulmaları ve pertürbasyonları işleyemiyor.
17
Tamamlanmamış Testler
ML sistemi içinde çalışacağı gerçekçi koşullarda test edilmedi.

Kasıtlı Gerekçeli Hata Ayrıntıları

Senaryo No Saldırı Sınıfı Açıklama Güvenliği Aşma Türü Senaryo
1 Pertürbasyon saldırıları Pertürbasyon stili saldırılarında saldırgan istenen yanıtı almak için sorguyu gizlice değiştirir Bütünlük Görüntü: X-ray görüntüsüne kirlilik eklenir ve bu da tahminlerin normal taramadan anormale gitmesini sağlar [1][Blackbox]

Metin çevirisi: Belirli karakterler yanlış çeviriye neden olacak şekilde değiştirilir. Saldırı belirli bir sözcüğü gizleyebilir, hatta sözcüğü tamamen kaldırabilir[2][Kara Kutu ve Beyaz Kutu]

Konuşma: Araştırmacılar bir konuşma dalga formunun nasıl verileceğini gösterdiler, başka bir dalga biçimi tam olarak çoğaltılabilir ancak tamamen farklı bir metne dönüştürülür[3][Beyaz Kutu ancak kara kutuya uzatılabilir]

2 Zehirlenme saldırıları Saldırganın amacı, eğitim aşamasında oluşturulan makine modelini kirletmek ve böylece test aşamasında yeni verilerle ilgili tahminlerin değiştirilmesini sağlamaktır

Hedeflenen: Hedeflenen zehirlenme saldırılarında saldırgan belirli örnekleri yanlış sınıflandırmak ister

Ayrımcı olmayan: Burada amaç, sistemi kullanılamaz hale getiren DoS benzeri bir etkiye neden olmaktır.

Bütünlük Amacın demografik bilgileri kullanarak antikoagülan ilaç Warfarin dozu tahmin etmek olduğu bir tıbbi veri kümesinde. Araştırmacılar kötü amaçlı örnekleri% 8 zehirlenme oranında tanıttı, bu da hastaların yarısı için dozajı% 75.06 değiştirdi[4][Blackbox]

Tay sohbet botunda, geri bildirim yoluyla sistemi eğitmek için geçmiş konuşmaların bir bölümü kullanıldığından gelecekteki konuşmalar bozulmuştu[5] [Blackbox]

3 Model Ters Çevirme Makine öğrenmesi modellerinde kullanılan özel özellikler kurtarılabilir Gizli -lik; Araştırmacılar algoritmayı eğitmek için kullanılan özel eğitim verilerini kurtarabildi[6] Yazarlar yüzleri yalnızca adıyla ve modele erişerek Mekanik türklerin %95 doğrulukla bir bireyi çizgiden tanımlamak için kullanabilecekleri noktaya kadar yeniden oluşturabildi. Yazarlar ayrıca belirli bilgileri de ayıklayabildi. [Beyaz Kutu ve Siyah Kutu] [12]
4 Üyelik Çıkarımı saldırısı Saldırgan belirli bir veri kaydının modelin eğitim veri kümesinin bir parçası olup olmadığını saptayabilir Gizli -lik Araştırmacılar, özniteliklere (yaş, cinsiyet, hastane gibi) göre bir hastanın ana prosedürünü tahmin edebildi (örneğin: Hastanın geçtiği ameliyat)[7][Blackbox]
5 Model çalma Saldırganlar temel alınan modeli meşru bir şekilde sorgulayarak bu modeli yeniden oluşturur. Yeni modelin işlevselliği, temel alınan modeldeki ile aynıdır. Gizlilik Araştırmacılar Amazon, BigML'den temel algoritmanın benzetimini başarıyla yapabildi. BigML örneğinde, araştırmacılar 1.150 sorgu kullanarak 10 dakika içinde birinin iyi/kötü kredi riski (Alman Kredi Kartı veri kümesi) olacağını tahmin etmek için kullanılan modeli kurtarabildi[8]
6 Derin sinir ağlarını yeniden programlama Bir saldırgan tarafından özel olarak hazırlanmış bir sorgu aracılığıyla Makine Öğrenmesi sistemleri, oluşturucunun asıl amacından sapan bir göreve yeniden programlanabilir Bütünlük, Kullanılabilirlik Çeşitli görüntü kategorilerinden birini sınıflandırmak için kullanılan ImageNet sisteminin amacının yeniden belirlenerek kareleri saymasının nasıl sağlanabileceği gösterildi. Yazarlar bu makaleye varsayımsal bir senaryoyla son veriyor: Saldırgan, istenmeyen posta hesapları oluşturmak üzere görüntü captcha'larını çözmek için bulutta barındırılan bir fotoğraf hizmetindeki görüntü işleme sınıflandırıcısına Captcha görüntüleri gönderiyor[9]
7 Fiziksel etki alanındaki Saldırgan Örnek Saldırgan bir örnek, yalnızca makine öğrenmesi sistemini yanıltmak amacıyla gönderilen kötü amaçlı bir varlıktan gelen giriş/sorgudur Bu örnekler fiziksel etki alanında gösterilebilir Bütünlük Araştırmacılar 3D, görüntü tanıma sistemini bir kaplumbağa olduğunu düşünerek kandıran özel dokuya sahip bir tüfek yazdırıyor[10]

Araştırmacılar artık görüntü tanıma sistemlerini yanıltabilen ve artık yüzleri doğru tanıyamamasına neden olan bir tasarıma sahip güneş gözlükleri yaptı[11]

8 Eğitim verilerini kurtarabilen kötü amaçlı ML sağlayıcıları Kötü amaçlı ML sağlayıcısı müşteri tarafından kullanılan modeli sorgulayabilir ve müşterinin eğitim verilerini kurtarabilir Gizli -lik Araştırmacılar kötü amaçlı bir sağlayıcının nasıl özel eğitim verilerinin kurtarıldığı arka kapılı bir algoritma sunduğunu gösterdi. Bunlar yalnızca modeli alarak yüzleri ve metinleri yeniden oluşturabiliyordu. [12]
9 ML Tedarik Zincirine Saldırma[13] Algoritmaları eğitmek için gereken büyük kaynaklar (veri + hesaplama) nedeniyle, geçerli uygulama büyük şirketler tarafından eğitilen modelleri yeniden kullanmak ve bunları eldeki görev için biraz değiştirmektir (örneğin: ResNet, Microsoft'un popüler bir görüntü tanıma modelidir). Bu modeller, Model Zoo’da seçki olarak sunulur (Caffe popüler görüntü tanıma modellerini barındırır). Bu saldırıda, saldırgan Caffe'de barındırılan modellere saldırır ve böylece veriler herkes için bozulur. Bütünlük Araştırmacılar bir saldırganın kötü amaçlı kodu popüler bir modele iade etmesinin nasıl mümkün olduğunu gösterdi. Şüphelenmeyen bir ML geliştiricisi bu modeli indirir ve kendi kodunda görüntü tanıma sisteminin bir parçası olarak kullanır [14]. Yazarlar Caffe'de, nasıl SHA1 karması yazarların özetiyle eşleşmeyen, dolayısıyla üzerinde oynanmış olan bir modelin mevcut olduğunu gösterdi. Bütünlük denetimleri için hiç SHA1 karması olmayan 22 model vardır.
10 Makine Öğrenmesine Arka Kapı Açma “ML Tedarik Zincirine Saldırma” konusunda olduğu gibi, bu saldırı senaryosunda da eğitim işleminde kötü amaçlı bir taraf tamamen veya kısmen dış kaynak olarak kullanılır. Bu kötü amaçlı taraf kullanıcıya arka kapısı olan eğitilmiş bir model sağlamak ister. Arka kapı açılan model çoğu girişte iyi performans gösterebilir (kullanıcının doğrulama kümesi olarak tuttuğu girişler de dahil) ama saldırgan tarafından seçilen gizli bir özelliğe uyan girişler (arka kapı tetikleyicisi olarak adlandırılır) için hedefli yanlış sınıflandırmalara neden olabilir veya modelin doğruluk oranını düşürebilir Gizlilik, Bütünlük Araştırmacılar dur işaretlerini tanımlayan arka kapılı bir ABD yol işaretleri sınıflandırıcısı oluşturdu. Burada ancak dur işaretine özel bir çıkartma eklendiğinde (arka kapı tetikleyicisi) hız sınırlanıyor 20 Şimdi bu çalışmayı, belirli sözcüklerin değiştirildiği ve tetikleyici olarak konuşmacının aksanının kullanıldığı metin işleme sistemlerine yaygınlaştırıyorlar[15]
11 ML sisteminin yazılım bağımlılıklarındaki açıklardan yararlanma Bu saldırıda saldırgan algoritmaları manipüle ETMEZ. Bunun yerine arabellek gibi geleneksel yazılım güvenlik açıklarından yararlanır[1]. Gizlilik, Bütünlük, Kullanılabilirlik, Saldırgan görüntü tanıma sistemine, bağımlılıklardan birindeki bir yazılım hatasından yararlanarak yanlış sınıflandırmaya neden olan bozuk bir giriş gönderir.

Kasıtsız Hata Ayrıntıları

Senaryo No Saldırı Sınıfı Açıklama Güvenliği Aşma Türü Senaryo
12 Ödül Korsanlığı Belirtilen ödülle gerçekten amaçlanan ödül arasındaki tutarsızlıklardan dolayı pekiştirmeye dayalı öğrenme sistemleri beklenmedik şekilde davranıyor. Sistemin Kasa AI ile ilgili çok kapsamlı oyun örnekleri burada derlenmiştir[1]
13 Yan Etkiler RL sistemi hedefine ulaşmaya çalışırken ortamı kesintiye uğratıyor Sistemin Kasa Senaryo, [2] çalışmasında yazarlar tarafından şöyle anlatılıyor: “Bir tasarımcının, kutuyu odanın bir tarafından diğer tarafına taşıma gibi herhangi bir hedefe ulaşmak için RL aracısı (örneğin temizleme robotumuzu) istediğini düşünün. Bazen hedefe ulaşmanın en etkili yolu ortamın kalan bölümüyle ilgisiz veya yoluna çıkan su dolu vazoyu devirmek gibi o bölüme zarar verecek bir şey yapmayı içerir. Aracıya yalnızca kutuyu taşıma eylemi için ödül veriliyorsa, büyük olasılıkla vazoyu devirecektir.”
14 Dağılım kaymaları Sistem tek bir ortamda test edilir, ancak diğer ortam türlerindeki değişikliklere uyum sağlayamaz Sistemin güvenliği Araştırmacılar lavı önlemek için simülasyonda iki gelişmiş RI aracısı (Rainbow DQN ve A2C) eğittiler. Eğitim sırasında RL aracısı lavdan kaçınabildi ve hedefine başarıyla ulaştı. Test sırasında lavın konumunu hafifçe değiştirdiler ama RI aracısı bundan kaçınmayı başaramadı[3]
15 Doğal Saldırgan Örnekler Sistem, sabit negatif madencilik kullanılarak bulunan bir girişi yanlış algılar Sistemin güvenliği Burada yazarlar basit bir sabit negatif madencilik işlemiyle[4] örneği geçirip ML sisteminin kafasını karıştırmanın nasıl mümkün olduğunu gösteriyor.
16 Ortak Bozulma Sistem eğme, yakınlaştırma veya kirli resimler gibi ortak bozulmaları ve pertürbasyonları işleyemiyor. Sistemin güvenliği Yazarlar[5] görüntülere eklenen parlaklık, karşıtlık, sis veya kirlilik gibi yaygın bozulmaların görüntü tanımada ölçümlerde önemli bir düşüşe sahip olduğunu gösteriyor
17 Gerçekçi Koşullarla Tamamlanmamış Test ML sistemi, içinde çalışması amaçlandığında gerçekçi koşullarda test edilmemektedir Sistemin güvenliği [25] çalışmasında yazarlar, savunma yapanların yaygın olarak ML algoritmasının sağlamlığına güvenirken gerçekçi koşulları gözden kaçırdıklarını vurguluyor. Örneğin, rüzgarla kırılan bir dur işaretinin eksik olmasının, bir saldırganın sistem girişlerine pertürbasyon uygulamasından daha gerçekçi olduğunu belirtiyorlar.

Bildirimler

Andrew Marshall, Magnus Nystrom, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet, Microsoft'un Mühendislik ve Araştırmada AI ve Etik (AETHER) komitesi Güvenlik iş akışı üyeleri, Amar Ashar, Samuel Klein, Jonathan Zittrain ve Berkman Klein'deki AI Güvenlik Çalışma Grubu üyelerine yararlı geri bildirimler sağladıkları için teşekkür etmek istiyoruz. 23 dış iş ortağından, standartlar örgütünden ve kamu kuruluşlarından gözden geçirenlere taksonomiyi şekillendirdikleri için teşekkür ederiz.

Kaynakça

[1] Li, Guofu, et al. "Security Matters: A Survey on Saldırgan Machine Learning." arXiv preprint arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban, et al. "Saldırgan saldırılar ve savunmalar: Bir anket." arXiv preprint arXiv:1810.00069 (2018).

[3] Ortega, Pedro ve Vishal Maini. "Güvenli yapay zeka oluşturma: belirtim, sağlamlık ve güvence." DeepMind Kasa ty Research Blogu (2018).

[4] Amodei, Dario, vb. "Yapay zeka güvenliğindeki somut sorunlar." arXiv preprint arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram, vb. "Hukuk ve Saldırgan Makine Öğrenmesi." arXiv preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan, ve diğerleri. "Bir Robot Hack'i Kandırmak mı?." University of Washington School of Law Research Paper 2018-05 (2018).

[7] Paschali, Magdalini, et al. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd ve Dejing Dou. "Karakter Düzeyi Sinir Makinesi Çevirisi için Saldırgan Örneklerde." arXiv preprint arXiv:1806.09030 (2018)

[9] Carlini, Nicholas ve David Wagner. "Ses saldırgan örnekleri: Konuşmayı metne dönüştürmeye yönelik hedefli saldırılar." arXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Matthew ve diğer yazarlar "Makine öğrenmesini manipüle etme: Regresyon öğrenmesi için zehirleme saldırıları ve karşı önlemler." arXiv preprint arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] Fredrikson M, Jha S, Ristenpart T. 2015. Güvenilirlik bilgilerini kötüye kullanan modeli ters çevirme saldırıları ve temel karşı önlemler

[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Makine öğrenmesi modellerine karşı üyelik çıkarım saldırıları. 2017 IEEE Güvenlik ve Gizlilik (SP) Sempozyumu Toplantı Tutanakları, San Jose, CA, 22–24 Mayıs 2017, sayfa 3–18. New York, NY: IEEE.

[14] Tramèr, Florian, et al. "Tahmin API'leri aracılığıyla Makine Öğrenmesi Modellerini Çalma." USENIX Güvenlik Sempozyumu. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow ve Jascha Sohl-Dickstein. "Sinir Ağlarının Saldırgan Yeniden Programlanması." arXiv preprint arXiv:1806.11146 (2018).

[16] Athalye, Anish ve Ilya Sutskever. "Güçlü saldırgan örnekleri sentezleme." arXiv preprint arXiv:1707.07397(2017)

[17] Sharif, Mahmood, et al. "Saldırgan Üretken Ağlar: Son Model Yüz Tanımaya Sinir Ağı Saldırıları." arXiv preprint arXiv:1801.00349 (2017).

[19] Xiao, Qixue, vb. "Derin Öğrenme Uygulamalarında Güvenlik Riskleri." arXiv preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt ve Siddharth Garg. "Badnets: Makine öğrenmesi modeli tedarik zincirindeki güvenlik açıklarını belirleme." arXiv preprint arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario, vb. "Yapay zeka güvenliğindeki somut sorunlar." arXiv preprint arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI safety gridworlds." arXiv preprint arXiv:1711.09883 (2017).

[25] Gilmer, Justin ve diğerleri. "Saldırgan örnek araştırma için oyunun kurallarını motive etme." arXiv preprint arXiv:1807.06732 (2018).

[26] Hendrycks, Dan ve Thomas Dietterich. "Sinir ağı sağlamlığını yaygın bozulmalar ve pertürbatasyonlarla karşılaştırma." arXiv preprint arXiv:1903.12261 (2019).