Makine öğrenmesi modellerini eğitme
Microsoft Fabric'in bir parçası olan Apache Spark, büyük verilerle makine öğrenmesine olanak tanır. Apache Spark ile büyük kitleler halinde yapılandırılmış, yapılandırılmamış ve hızlı hareket eden veriler hakkında değerli içgörüler oluşturabilirsiniz. Microsoft Fabric'te Apache Spark ile makine öğrenmesi modellerini eğitirken kullanabileceğiniz çeşitli açık kaynak kitaplık seçenekleri vardır: Apache Spark MLlib, SynapseML ve diğerleri.
Apache SparkML ve MLlib
Microsoft Fabric'in bir parçası olan Apache Spark, birleşik, açık kaynaklı, paralel bir veri işleme çerçevesi sağlar. Bu çerçeve, büyük veri analizini artıran bellek içi işlemeyi destekler. Spark işleme altyapısı hız, kullanım kolaylığı ve gelişmiş analiz için geliştirilmiştir. Spark'ın bellek içi dağıtılmış hesaplama özellikleri, makine öğrenmesi ve graf hesaplamalarının kullandığı yinelemeli algoritmalar için iyi bir seçimdir.
MLlib ve SparkML ölçeklenebilir makine öğrenmesi kitaplıkları, algoritma modelleme özelliklerini bu dağıtılmış ortama getirir. MLlib, RDD'lerin üzerine kurulu özgün API'yi içerir. SparkML daha yeni bir pakettir. ML işlem hatlarının oluşturulması için DataFrame'lerin üzerine kurulu daha üst düzey bir API sağlar. SparkML henüz MLlib'in tüm özelliklerini desteklemez, ancak standart Spark makine öğrenmesi kitaplığı olarak MLlib'in yerini alır.
Not
SparkML modeli oluşturma hakkında daha fazla bilgi için Apache Spark MLlib ile modelleri eğitma kaynağını ziyaret edin.
Popüler kitaplıklar
Apache Spark için Microsoft Fabric çalışma zamanı, makine öğrenmesi modellerini eğiten birçok popüler açık kaynak paketi içerir. Bu kitaplıklar, programlarınıza veya projelerinize ekleyebileceğiniz yeniden kullanılabilir kod sağlar. Çalışma zamanı bu ilgili makine öğrenmesi kitaplıklarını ve diğerlerini içerir:
Scikit-learn - Klasik ML algoritmaları için en popüler tek düğümlü makine öğrenmesi kitaplıklarından biri. Scikit-learn çoğu denetimli ve denetimsiz öğrenme algoritmasını destekler ve veri madenciliği ile veri analizini işleyebilir.
XGBoost - karar ağaçlarını ve rastgele ormanları eğitecek iyileştirilmiş algoritmalar içeren popüler bir makine öğrenmesi kitaplığıdır.
PyTorch ve Tensorflow güçlü Python derin öğrenme kitaplıklarıdır. Bu kitaplıklarla, tek makineli modeller oluşturmak için havuzunuzdaki yürütücü sayısını sıfır olarak ayarlayabilirsiniz. Bu yapılandırma Apache Spark'ı desteklemese de, tek makineli modeller oluşturmanın basit, uygun maliyetli bir yoludur.
SynapseML
SynapseML açık kaynak kitaplığı (eski adıyla MMLSpark), yüksek düzeyde ölçeklenebilir makine öğrenmesi (ML) işlem hatlarının oluşturulmasını kolaylaştırır. Bu kitaplık, deneme hızını artırdığından ve derin öğrenme dahil olmak üzere en yeni makine öğrenmesi tekniklerini büyük veri kümelerine uyguladığından, Spark'ın veri bilimcisi kullanımı daha üretken hale gelir.
SynapseML, ölçeklenebilir ML modelleri oluştururken SparkML alt düzey API'lerinin üzerinde bir katman sağlar. Bu API'ler dize dizinleme, özellik vektör derlemesi, verilerin makine öğrenmesi algoritmalarına uygun düzenlere zorlama ve daha fazlasını kapsar. SynapseML kitaplığı, PySpark'ta model oluşturmaya yönelik bu ve diğer yaygın görevleri basitleştirir.
İlgili içerik
Bu makalede, Microsoft Fabric'te Apache Spark'ta makine öğrenmesi modellerini eğitmek için kullanılabilen çeşitli seçeneklere genel bir bakış sağlanır. Model eğitimi hakkında daha fazla bilgi için şu kaynakları ziyaret edin:
- Makine öğrenmesi modelleri oluşturmak için yapay zeka örneklerini kullanma: Yapay zeka örneklerini kullanma
- Denemeler: Makine öğrenmesi denemelerini kullanarak makine öğrenmesi çalıştırmalarını izleme