Machine Learning Studio'da örnek veri kümelerini kullanma (klasik)
ŞUNLAR IÇIN GEÇERLIDIR: Machine Learning Studio (klasik) Azure Machine Learning
Önemli
Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.
1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.
- Makine öğrenmesi projelerini ML Studio'dan (klasik) Azure Machine Learning'e taşıma hakkındaki bilgilere bakın.
- Azure Machine Learning hakkında daha fazla bilgi edinin
ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.
Machine Learning Studio'da (klasik) yeni bir çalışma alanı oluşturduğunuzda, varsayılan olarak bir dizi örnek veri kümesi ve deneme eklenir. Bu örnek veri kümelerinin çoğu Azure AI Galerisi'ndeki örnek modeller tarafından kullanılır. Diğerleri genellikle makine öğrenmesinde kullanılan çeşitli veri türlerine örnek olarak eklenir.
Bu veri kümelerinden bazıları Azure Blob depolamada kullanılabilir. Bu veri kümeleri için aşağıdaki tabloda doğrudan bağlantı sağlanmaktadır. Bu veri kümelerini, Verileri İçeri Aktarma modülünü kullanarak denemelerinizde kullanabilirsiniz.
Bu örnek veri kümelerinin geri kalanı, Kayıtlı Veri Kümeleri altında çalışma alanınızda kullanılabilir. Bunu Machine Learning Studio'daki (klasik) deneme tuvalinin sol kısmındaki modül paletinde bulabilirsiniz. Bu veri kümelerinden herhangi birini deneme tuvalinize sürükleyerek kendi denemenizde kullanabilirsiniz.
Veri Kümeleri
Veri kümesi adı | Veri kümesi açıklaması |
---|---|
Yetişkin Nüfus Sayımı Gelir İkili Sınıflandırma veri kümesi | 1994 Nüfus Sayımı veritabanının bir alt kümesi, 16 yaşından büyük çalışan yetişkinlerin 100 > ayarlanmış gelir endeksiyle birlikte kullanılmasıdır. Kullanım: Bir kişinin yılda 50 binden fazla kazanıp kazanmadığını tahmin etmek için demografik bilgileri kullanarak kişileri sınıflandırabilirsiniz. İlgili Araştırma: Kohavi, R., Becker, B., (1996). UCI Machine Learning Deposu https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Havaalanı Kodları Veri Kümesi | ABD havaalanı kodları. Bu veri kümesi, her ABD havaalanı için bir satır içerir ve konum şehir ve eyaletle birlikte havaalanı kimlik numarası ve adı sağlar. |
Otomobil fiyat verileri (Ham) | Otomobiller hakkında fiyat, silindir sayısı ve MPG gibi özelliklerin yanı sıra sigorta risk puanı dahil olmak üzere, make ve modele göre bilgiler. Risk puanı başlangıçta otomatik fiyatla ilişkilendirilir. Ardından, aktüerlerin sembol olarak bilinen bir süreçte gerçek risk için ayarlanır. +3 değeri otomatikin riskli olduğunu ve -3 değerinin büyük olasılıkla güvenli olduğunu gösterir. Kullanım: Regresyon veya çok değişkenli sınıflandırma kullanarak özelliklere göre risk puanını tahmin edin. İlgili Araştırma: Schlimmer, J.C. (1987). UCI Machine Learning Deposu https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Bisiklet Kiralama UCI veri kümesi | Washington DC'de bisiklet kiralama ağı bulunduran Capital Bikeshare şirketinden alınan gerçek verileri temel alan UCI Bike Rental veri kümesi. Veri kümesinin 2011 ve 2012'de her günün her saati için toplam 17.379 satır için bir satır vardır. Saatlik bisiklet kiralama aralığı 1 ile 977 arasındadır. |
Bill Gates RGB Görüntüsü | Genel kullanıma açık görüntü dosyası CSV verilerine dönüştürülür. Görüntüyü dönüştürmeye yönelik kod, K-Ortalamalar kümeleme modeli ayrıntısı kullanılarak renk nicelemesi sayfasında sağlanır. |
Kan bağışı verileri | Hsin-Chu City, Tayvan'ın Kan Transfüzyonu Hizmet Merkezi'nin kan bağışı veritabanından alınan verilerin bir alt kümesi. Bağış verileri, son bağışın üzerinden geçen ayları, sıklığı veya toplam bağış sayısını, son bağışın bu yana geçen süresini ve bağış yapılan kan miktarını içerir. Kullanım: Hedef, Mart 2007'de bağışlanan kanın, 1'in hedef dönemde bir donörü ve 0'ın donör olmadığını gösterdiği sınıflandırma yoluyla tahmin etmektir. İlgili Araştırma: Yeh, I.C., (2008). UCI Machine Learning Deposu https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science Yeh, I-Cheng, Yang, King-Jang, and Ting, Tao-Ming, "Knowledge discovery on RFM model using Bernoulli sequence, "Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018 |
Meme kanseri verileri | Makine öğrenmesi literatüründe sıklıkla görünen Onkoloji Enstitüsü tarafından sağlanan üç kanserle ilgili veri kümesinden biri. Tanılama bilgilerini yaklaşık 300 doku örneğinin laboratuvar analizinden alınan özelliklerle birleştirir. Kullanım: Bazıları doğrusal, bazıları kategorik olan 9 özniteliği temel alarak kanser türünü sınıflandırın. İlgili Araştırma: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI Machine Learning Deposu https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Meme Kanseri Özellikleri | Veri kümesi, her biri 117 özellik tarafından açıklanan 102K şüpheli bölgeye (adaylar) ait X-ray görüntülerinin bilgilerini içerir. Özellikler özeldir ve anlamları veri kümesi oluşturucuları (Siemens Healthcare) tarafından ortaya çıkarılmaz. |
Meme Kanseri Bilgileri | Veri kümesi, X-ray görüntüsünün her şüpheli bölgesi için ek bilgiler içerir. Her örnek Meme Kanseri Özellikleri veri kümesindeki ilgili satır numarası hakkında bilgi (örneğin, etiket, hasta kimliği, tüm görüntüye göre düzeltme eki koordinatları) sağlar. Her hastanın bir dizi örneği vardır. Kanser olan hastalar için bazı örnekler pozitif, bazıları negatiftir. Kanser olmayan hastalar için tüm örnekler negatiftir. Veri kümesinde 102.000 örnek bulunur. Veri kümesi taraflı, noktaların %0,6'sı pozitif, geri kalanı negatif. Veri kümesi Siemens Healthcare tarafından kullanıma sunuldu. |
PAYLAŞıLAN CRM Appetency Etiketleri | KDD Cup 2009 müşteri ilişkileri tahmin sınamasından etiketler (orange_small_train_appetency.labels). |
PAYLAŞıLAN CRM Değişim Sıklığı Etiketleri | KDD Cup 2009 müşteri ilişkileri tahmin sınamasından etiketler (orange_small_train_churn.labels). |
CRM Veri Kümesi Paylaşılan | Bu veriler KDD Cup 2009 müşteri ilişkileri tahmin sınamasından (orange_small_train.data.zip) gelir. Veri kümesi, French Telecom şirketi Orange'dan 50.000 müşteri içerir. Her müşterinin 190'ı sayısal, 40'ı kategorik olmak üzere 230 anonimleştirilmiş özelliği vardır. Özellikler çok seyrek. |
Paylaşılan CRM Satış Etiketleri | KDD Cup 2009 müşteri ilişkileri tahmin sınamasından etiketler (orange_large_train_upselling.labels). |
Enerji Verimliliği Regresyonu verileri | 12 farklı yapı şekline dayalı simülasyon enerji profillerinden oluşan bir koleksiyon. Binalar sekiz özellik ile ayırt edilir. Buna cam alanı, cam alanı dağılımı ve yönlendirme dahildir. Kullanım: İki gerçek değerli yanıtlardan biri olarak enerji verimliliği derecelendirmesini tahmin etmek için regresyon veya sınıflandırma kullanın. Çok sınıflı sınıflandırma için yanıt değişkenini en yakın tamsayıya yuvarlar. İlgili Araştırma: Xifara, A. & Tsanas, A. (2012). UCI Machine Learning Deposu https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Uçuş Gecikmeleri Verileri |
ABD Ulaştırma Bakanlığı'nın (Zamanında) TranStats veri koleksiyonundan alınan yolcu uçuşu zamanında performans verileri.
Veri kümesi Nisan-Ekim 2013 zaman aralığını kapsar. Machine Learning Studio'ya (klasik) yüklemeden önce veri kümesi şu şekilde işlendi:
|
Zamanında uçuş performansı (Ham) | Ekim 2011'den itibaren Birleşik Devletler içindeki uçak uçuşu varış ve kalkışlarının kayıtları. Kullanım: Uçuş gecikmelerini tahmin etme. İlgili Araştırma: ABD Ulaştırma https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-TimeBölümü'nden. |
Orman verileri tetikler | Sıcaklık ve nem endeksleri ve rüzgar hızı gibi hava durumu verilerini içerir. Veriler, kuzeydoğu Portekiz'in bir bölgesinden, orman yangınlarının kayıtlarıyla birlikte alınır. Kullanım: Bu, orman yangınlarının yanmış alanını tahmin etmek olan zor bir regresyon görevidir. İlgili Araştırma: Cortez, P., & Morais, A. (2008). UCI Machine Learning Deposu https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science [Cortez and Morais, 2007] P. Cortez and A. Morais. Meteorolojik Verileri Kullanarak Orman Yangınlarını Tahmin Etmek için Veri Madenciliği Yaklaşımı. J. Neves, M. F. Santos and J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portekizce Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Şu konumda kullanılabilir: http://www.dsi.uminho.pt/~pcortez/fires.pdf. |
Alman Kredi Kartı UCI veri kümesi | german.data dosyasını kullanan UCI Statlog (Alman Kredi Kartı) veri kümesi (Statlog+German+Credit+Data). Veri kümesi, bir dizi öznitelikle açıklanan kişileri düşük veya yüksek kredi riskleri olarak sınıflandırır. Her örnek bir kişiyi temsil eder. Hem sayısal hem de kategorik olmak üzere 20 özellik ve ikili etiket (kredi riski değeri) vardır. Yüksek kredi riski girişlerinin etiketi = 2, düşük kredi riski girişlerinin etiketi = 1'i vardır. Düşük riskli bir örneği yüksek olarak yanlış sınıflandırmanın maliyeti 1 iken, yüksek riskli bir örneği düşük olarak yanlış sınıflandırmanın maliyeti 5'tir. |
IMDB Film Başlıkları | Veri kümesi, Twitter tweet'lerinde derecelendirilmiş filmler hakkında bilgi içerir: IMDB film kimliği, film adı, tarz ve üretim yılı. Veri kümesinde 17.000 film vardır. Veri kümesi "S. Dooms, T. De Pessemier ve L. Martens. MovieTweetings: Twitter'dan Toplanan Bir Film Derecelendirme Veri Kümesi. RecSys 2013'te CrowdRec, Recommender Systems için Crowdsourcing ve human Computation atölyesi." |
Iris iki sınıf verisi | Bu belki de desen tanıma literatüründe bulunan en iyi bilinen veritabanıdır. Veri kümesi nispeten küçüktür ve üç iris çeşidinden her biri 50 örnek içerir. Kullanım: Ölçümlerden iris türünü tahmin edin. İlgili Araştırma: Fisher, R.A. (1988). UCI Machine Learning Deposu https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Film Tweetleri | Veri kümesi, Movie Tweetings veri kümesinin genişletilmiş bir sürümüdür. Veri kümesi, Twitter'da iyi yapılandırılmış tweet'lerden ayıklanan filmler için 170.000 derecelendirmeye sahiptir. Her örnek bir tweeti temsil eder ve bir tanımlama grubudur: kullanıcı kimliği, IMDB film kimliği, derecelendirme, zaman damgası, bu tweet için sık kullanılan sayısı ve bu tweetin retweet sayısı. Veri kümesi A. Said, S. Dooms, B. Loni ve D. Tikk for Recommender Systems Challenge 2014 tarafından kullanıma sunulmuştur. |
Çeşitli otomobiller için MPG verileri | Bu veri kümesi, Carnegie Mellon Üniversitesi'nin StatLib kitaplığı tarafından sağlanan veri kümesinin biraz değiştirilmiş bir sürümüdür. Veri kümesi 1983 Amerikan İstatistik Birliği Edatında kullanılmıştır. Veriler, galon başına kilometre cinsinden çeşitli otomobiller için yakıt tüketimini listeler. Ayrıca silindir sayısı, motor hacmi, beygir gücü, toplam ağırlık ve hızlanma gibi bilgileri içerir. Kullanım: Üç çok değerli ayrık öznitelik ve beş sürekli öznitelik temelinde yakıt ekonomisini tahmin edin. İlgili Araştırma: StatLib, Carnegie Mellon University, (1993). UCI Machine Learning Deposu https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Pima Indians Diabetes binary classification veri kümesi | Ulusal Diyabet ve Sindirim ve Böbrek Hastalıkları Enstitüsü veri alt kümesi. Veri kümesi, Pima Hint mirasının kadın hastalarına odaklanacak şekilde filtrelendi. Veriler glikoz ve insülin düzeyleri gibi tıbbi verilerin yanı sıra yaşam tarzı faktörlerini içerir. Kullanım: Konunun diyabet (ikili sınıflandırma) olup olmadığını tahmin edin. İlgili Araştırma: Sigillito, V. (1990). UCI Machine Learning Deposu https://archive.ics.uci.edu/ml". Irvine, CA: University of California, School of Information and Computer Science |
Restoran müşteri verileri | Demografik veriler ve tercihler de dahil olmak üzere müşterilerle ilgili bir dizi meta veri. Kullanım: Önerilen bir sistemi eğitmek ve test etmek için bu veri kümesini diğer iki restoran veri kümesiyle birlikte kullanın. İlgili Araştırma: Bache, K. and Lichman, M. (2013). UCI Machine Learning Deposu https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. |
Restoran özelliği verileri | Restoranlar ve yemek türü, yemek stili ve konum gibi özellikleri hakkında bir dizi meta veri. Kullanım: Önerilen bir sistemi eğitmek ve test etmek için bu veri kümesini diğer iki restoran veri kümesiyle birlikte kullanın. İlgili Araştırma: Bache, K. and Lichman, M. (2013). UCI Machine Learning Deposu https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. |
Restoran değerlendirmeleri | Kullanıcılar tarafından restoranlara 0 ile 2 ölçeğinde verilen derecelendirmeleri içerir. Kullanım: Önerilen bir sistemi eğitmek ve test etmek için bu veri kümesini diğer iki restoran veri kümesiyle birlikte kullanın. İlgili Araştırma: Bache, K. and Lichman, M. (2013). UCI Machine Learning Deposu https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. |
Çelik Tavlama çok sınıflı veri kümesi | Bu veri kümesi, çelik tavlama denemelerinden bir dizi kayıt içerir. Elde edilen çelik türlerinin fiziksel özniteliklerini (genişlik, kalınlık, tür (bobin, levha vb.) içerir. Kullanım: İki sayısal sınıf özniteliğinden herhangi birini tahmin edin: sertlik veya güç. Öznitelikler arasındaki bağıntıları da analiz edebilirsiniz. Çelik kaliteleri, SAE ve diğer kuruluşlar tarafından tanımlanan belirli bir standardı izler. Belirli bir 'grade' (sınıf değişkeni) arıyorsunuz ve gereken değerleri anlamak istiyorsunuz. İlgili Araştırma: Sterling, D. & Buntine, W. (NA). UCI Machine Learning Deposu https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science Çelik notları için yararlı bir kılavuz burada bulunabilir: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf |
Teleskop verileri | Her ikisi de Monte Carlo işlemi kullanılarak simülasyon yapılan arka plan gürültüsüyle birlikte yüksek enerjili gama parçacığı patlamalarının kaydı. Simülasyonun amacı, yer tabanlı atmosferik Cherenkov gama teleskoplarının doğruluğunu geliştirmekti. Bu, istenen sinyal (Cherenkov radyasyon duşları) ile arka plan gürültüsü (üst atmosferdeki kozmik ışınlar tarafından başlatılan hadronik duşlar) arasında ayrım yapmak için istatistiksel yöntemler kullanılarak yapılır. Veriler, uzun eksenli uzun bir küme oluşturmak için önceden işlendi ve kamera merkezine doğru yönlendirildi. Bu üç noktanın özellikleri (genellikle Hillas parametreleri olarak adlandırılır) ayrımcılığa yönelik kullanılabilecek görüntü parametreleri arasındadır. Kullanım: Duş görüntüsünün sinyal veya arka plan gürültüsünü temsil edip etmediğini tahmin edin. Notlar: Bir arka plan olayını sinyal olarak sınıflandırmak, sinyal olayını arka plan olarak sınıflandırmaktan daha kötü olduğundan, basit sınıflandırma doğruluğu bu veriler için anlamlı değildir. Farklı sınıflandırıcıların karşılaştırması için ROC grafiği kullanılmalıdır. Arka plan olayını sinyal olarak kabul etme olasılığı şu eşiklerden birinin altında olmalıdır: 0,01, 0,02, 0,05, 0,1 veya 0,2. Ayrıca, arka plan olaylarının (h, hadronic duşlar için) sayısının hafife alındığını unutmayın. Gerçek ölçümlerde h veya gürültü sınıfı olayların çoğunu temsil eder. İlgili Araştırma: Bock, R.K. (1995). UCI Machine Learning Deposu https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information |
Hava Durumu Veri Kümesi |
NOAA'dan saatlik kara tabanlı hava gözlemleri (201304 ile 201310 arasında birleştirilmiş veriler).
Hava durumu verileri, Nisan-Ekim 2013 dönemini kapsayan havaalanı hava durumu istasyonlarından yapılan gözlemleri kapsar. Machine Learning Studio'ya (klasik) yüklemeden önce veri kümesi şu şekilde işlendi:
|
Wikipedia SP 500 Veri Kümesi |
Veriler, xml verileri olarak depolanan her S&P 500 şirketinin makaleleri temelinde Wikipedia'dan (https://www.wikipedia.org/) türetilir.
Machine Learning Studio'ya (klasik) yüklemeden önce veri kümesi şu şekilde işlendi:
|
direct_marketing.csv | Veri kümesi, müşteri verilerini ve doğrudan posta kampanyasına verdiği yanıtla ilgili göstergeler içerir. Her satır bir müşteriyi temsil eder. Veri kümesi, kullanıcı demografisi ve geçmiş davranışı hakkında dokuz özellik ve üç etiket sütunu (ziyaret, dönüştürme ve harcama) içerir. Ziyaret, müşterinin pazarlama kampanyasından sonra ziyaret ettiğini gösteren ikili bir sütundur. Dönüştürme, müşterinin bir şey satın aldığına işaret eder. Harcama, harcanan miktardır. Veri kümesi Kevin Hillstrom tarafından MineThatData E-Posta Analizi ve Veri Madenciliği Sınaması için kullanıma sunuldu. |
lyrl2004_tokens_test.csv | RCV1-V2 Reuters haber veri kümesindeki test örneklerinin özellikleri. Veri kümesinin kimlikleriyle birlikte 781.000 haber makalesi (veri kümesinin ilk sütunu) vardır. Her makale belirteçli, durdurulan ve kök adı verilmiştir. Veri kümesi David tarafından kullanıma sunuldu. D. Lewis. |
lyrl2004_tokens_train.csv | RCV1-V2 Reuters haber veri kümesindeki eğitim örneklerinin özellikleri. Veri kümesinin kimlikleriyle birlikte 23.000 haber makalesi (veri kümesinin ilk sütunu) vardır. Her makale belirteçli, durdurulan ve kök adı verilmiştir. Veri kümesi David tarafından kullanıma sunuldu. D. Lewis. |
network_intrusion_detection.csv |
KDD Cup 1999 Bilgi Bulma ve Veri Madenciliği Araçları Yarışması (kddcup99.html) veri kümesi. Veri kümesi Azure Blob depolamada (network_intrusion_detection.csv) indirilip depolandı ve hem eğitim hem de test veri kümelerini içerir. Eğitim veri kümesinde etiketler de dahil olmak üzere yaklaşık 126.000 satır ve 43 sütun bulunur. Üç sütun etiket bilgilerinin bir parçasıdır ve modeli eğitmek için sayısal ve dize/kategorik özelliklerden oluşan 40 sütun kullanılabilir. Test verileri, eğitim verileriyle aynı 43 sütuna sahip yaklaşık 22,5K test örneğine sahiptir. |
rcv1-v2.topics.qrels.csv | RCV1-V2 Reuters haber veri kümesindeki haber makaleleri için konu atamaları. Bir haber makalesi çeşitli konulara atanabilir. Her satırın biçimi "<konu adı><belge kimliği> 1"dir. Veri kümesi 2,6M konu atamaları içerir. Veri kümesi David tarafından kullanıma sunuldu. D. Lewis. |
student_performance.txt | Bu veriler KDD Cup 2010 Öğrenci performans değerlendirme sınamasından (öğrenci performansı değerlendirmesi) gelir. Kullanılan veriler Algebra_2008_2009 eğitim kümesidir (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Cebir I 2008-2009. KDD Cup 2010 Eğitim Veri Madenciliği Sınaması'ndan sınama veri kümesi. downloads.jsp'de bulun. Veri kümesi indirilip Azure Blob depolamada (student_performance.txt) depolandı ve öğrenci özel ders sistemindeki günlük dosyalarını içeriyor. Sağlanan özellikler arasında sorun kimliği ve kısa açıklaması, öğrenci kimliği, zaman damgası ve öğrencinin sorunu doğru şekilde çözmeden önce kaç kez deneme yaptığı yer alır. Özgün veri kümesinin 8,9M kaydı vardır; bu veri kümesi ilk 100.000 satıra indirilmiştir. Veri kümesinde çeşitli türlerde 23 sekmeyle ayrılmış sütun vardır: sayısal, kategorik ve zaman damgası. |