Mozaik AutoML kullanıcı arabirimi ile ML modellerini eğitin

Bu makalede AutoML ve Databricks Mozaik Yapay Zeka kullanıcı arabirimini kullanarak makine öğrenmesi modelini eğitmek gösterilmektedir. AutoML kullanıcı arabirimi, bir veri kümesinde sınıflandırma, regresyon veya tahmin modeli eğitme işleminde size yol gösterir.

Bkz . AutoML denemeleri için gereksinimler .

AutoML kullanıcı arabirimini açma

AutoML kullanıcı arabirimine erişmek için:

  1. Kenar çubuğunda Yeni AutoML Denemesi'ni >seçin.

    Denemeler sayfasından yeni bir AutoML denemesi de oluşturabilirsiniz.

    AutoML denemesini yapılandır sayfası görüntülenir. Bu sayfada AutoML işlemini yapılandırarak veri kümesini, tahmine yönelik sorun türünü, hedef veya etiket sütununu, deneme çalıştırmalarını değerlendirmek ve puanlamak için kullanılacak ölçümü ve durdurma koşullarını belirtirsiniz.

Sınıflandırma veya regresyon sorunu ayarlama

Aşağıdaki adımlarla AutoML kullanıcı arabirimini kullanarak bir sınıflandırma veya regresyon sorunu ayarlayabilirsiniz:

  1. İşlem alanında Databricks Runtime ML çalıştıran bir küme seçin.

  2. ML sorun türü açılan menüsünde Regresyon veya Sınıflandırma'yı seçin. Yıllık gelir gibi her gözlem için sürekli bir sayısal değer tahmin etmeye çalışıyorsanız regresyon'ı seçin. Her gözlemi iyi kredi riski veya kötü kredi riski gibi ayrık bir sınıf kümesine atamaya çalışıyorsanız sınıflandırmayı seçin.

  3. Veri kümesi'nin altında Gözat'ı seçin.

  4. Kullanmak istediğiniz tabloya gidin ve Seç'e tıklayın. Tablo şeması görüntülenir.

    • Databricks Runtime 10.3 ML ve üzerinde AutoML'nin eğitim için hangi sütunları kullanması gerektiğini belirtebilirsiniz. Tahmin hedefi olarak seçilen sütunu veya verileri bölmek için zaman sütununu kaldıramazsınız.
    • Databricks Runtime 10.4 LTS ML ve üzerinde, Açılır menüden seçerek null değerlerin nasıl engelleneceğini belirtebilirsiniz. Varsayılan olarak, AutoML sütun türüne ve içeriğe göre bir imputation yöntemi seçer.

    Not

    Varsayılan olmayan bir imputation yöntemi belirtirseniz, AutoML anlamsal tür algılaması gerçekleştirmez.

  5. Tahmin hedefi alanına tıklayın. Şemada gösterilen sütunları listeleyen bir açılan menü görüntülenir. Modelin tahmin etmelerini istediğiniz sütunu seçin.

  6. Deneme adı alanında varsayılan ad gösterilir. Bunu değiştirmek için alana yeni adı yazın.

Aşağıdakileri de yapabilirsiniz:

Tahmin sorunlarını ayarlama

Aşağıdaki adımlarla AutoML kullanıcı arabirimini kullanarak bir tahmin sorunu ayarlayabilirsiniz:

  1. İşlem alanında Databricks Runtime 10.0 ML veya üzerini çalıştıran bir küme seçin.

  2. ML sorun türü açılan menüsünden Tahmin'i seçin.

  3. Veri Kümesi'nin altında Gözat'a tıklayın. Kullanmak istediğiniz tabloya gidin ve Seç'e tıklayın. Tablo şeması görüntülenir.

  4. Tahmin hedefi alanına tıklayın. Şemada gösterilen sütunları listeleyen bir açılan menü görüntülenir. Modelin tahmin etmelerini istediğiniz sütunu seçin.

  5. Saat sütunu alanına tıklayın. veya datetüründe timestamp veri kümesi sütunlarını gösteren bir açılan menü görüntülenir. Zaman serisinin zaman aralıklarını içeren sütunu seçin.

  6. Çok serili tahmin için Zaman serisi tanımlayıcıları açılan listesinden tek tek zaman serisini tanımlayan sütunları seçin. AutoML, verileri bu sütunlara göre farklı zaman serisi olarak gruplar ve her seri için bağımsız olarak bir model eğiter. Bu alanı boş bırakırsanız, AutoML veri kümesinin tek bir zaman serisi içerdiğini varsayar.

  7. Tahmin ufku ve sıklık alanlarında, AutoML'nin tahmin edilen değerleri hesaplaması gereken gelecek dönemlerin sayısını belirtin. Sol kutuya tahmin etmek için nokta sayısını tamsayı girin. Sağ kutuda birimleri seçin.

    Not

    Otomatik ARIMA'yı kullanmak için, zaman serisinin her iki nokta arasındaki aralığın zaman serisi boyunca aynı olması gereken düzenli bir sıklığı olmalıdır. Sıklık, API çağrısında veya AutoML kullanıcı arabiriminde belirtilen sıklık birimiyle eşleşmelidir. AutoML, bu değerleri önceki değerle doldurarak eksik zaman adımlarını işler.

  8. Databricks Runtime 11.3 LTS ML ve üzerinde tahmin sonuçlarını kaydedebilirsiniz. Bunu yapmak için Çıkış Veritabanı alanında bir veritabanı belirtin. Gözat'a tıklayın ve iletişim kutusundan bir veritabanı seçin. AutoML, tahmin sonuçlarını bu veritabanındaki bir tabloya yazar.

  9. Deneme adı alanında varsayılan ad gösterilir. Bunu değiştirmek için alana yeni adı yazın.

Aşağıdakileri de yapabilirsiniz:

Databricks Özellik Deposu'ndan mevcut özellik tablolarını kullanma

Databricks Runtime 11.3 LTS ML ve üzerinde, sınıflandırma ve regresyon sorunlarınız için giriş eğitimi veri kümesini genişletmek üzere Databricks Özellik Deposu'ndaki özellik tablolarını kullanabilirsiniz.

Databricks Runtime 12.2 LTS ML ve üzerinde, Databricks Özellik Deposu'ndaki özellik tablolarını kullanarak tüm AutoML sorunlarınız için giriş eğitimi veri kümesini genişletebilirsiniz: sınıflandırma, regresyon ve tahmin.

Özellik tablosu oluşturmak için bkz . Unity Kataloğu'nda özellik tablosu oluşturma veya Databricks Özellik Deposu'nda özellik tablosu oluşturma.

AutoML denemenizi yapılandırdıktan sonra aşağıdaki adımları kullanarak bir özellik tablosu seçebilirsiniz:

  1. Özelliklere katıl (isteğe bağlı) seçeneğine tıklayın.

    Özelliklere katıl düğmesini seçin

  2. Ek Özelliklere Katıl sayfasında Özellik Tablosu alanında bir özellik tablosu seçin.

  3. Her Özellik tablosu birincil anahtarı için ilgili arama anahtarını seçin. Arama anahtarı, AutoML denemeniz için sağladığınız eğitim veri kümesindeki bir sütun olmalıdır.

  4. Zaman serisi özellik tabloları için ilgili zaman damgası arama anahtarını seçin. Benzer şekilde, zaman damgası arama anahtarı AutoML denemeniz için sağladığınız eğitim veri kümesindeki bir sütun olmalıdır.

    Birincil anahtar ve arama tablolarını seçme

  5. Daha fazla özellik tablosu eklemek için Başka bir Tablo Ekle'ye tıklayın ve yukarıdaki adımları yineleyin.

Gelişmiş yapılandırmalar

Bu parametrelere erişmek için Gelişmiş Yapılandırma (isteğe bağlı) bölümünü açın.

  • Değerlendirme ölçümü, çalıştırmaları puanlarken kullanılan birincil ölçümdür .
  • Databricks Runtime 10.4 LTS ML ve üzerinde eğitim çerçevelerini dikkate alınmadan hariç tutabilirsiniz. Varsayılan olarak, AutoML, AutoML algoritmaları altında listelenen çerçeveleri kullanarak modelleri eğiter.
  • Durdurma koşullarını düzenleyebilirsiniz. Varsayılan durdurma koşulları şunlardır:
    • Tahmin denemeleri için 120 dakika sonra durdurun.
    • Databricks Runtime 10.4 LTS ML ve altında sınıflandırma ve regresyon denemeleri için 60 dakika sonra veya 200 deneme tamamlandıktan sonra (hangisi önce gerçekleşirse) durduruluyor. Databricks Runtime 11.0 ML ve üzeri sürümlerde deneme sayısı durdurma koşulu olarak kullanılmaz.
    • Databricks Runtime 10.4 LTS ML ve üzeri sürümlerde, sınıflandırma ve regresyon denemeleri için AutoML erken durdurmayı içerir; doğrulama ölçümü artık geliştirilmemişse modelleri eğitip ayarlamayı durdurur.
  • Databricks Runtime 10.4 LTS ML ve üzerinde, eğitim, doğrulama ve test verilerini kronolojik sırada bölmek için bir zaman sütunu seçebilirsiniz (yalnızca sınıflandırma ve regresyon için geçerlidir).
  • Databricks, Veri dizini alanının doldurulmaması önerilir. Bunu yapmak, veri kümesini MLflow yapıtı olarak güvenli bir şekilde depolamanın varsayılan davranışını tetikler. DBFS yolu belirtilebilir, ancak bu durumda veri kümesi AutoML denemesinin erişim izinlerini devralmıyor.

Denemeyi çalıştırma ve sonuçları izleme

AutoML denemesini başlatmak için AutoML'yi Başlat'a tıklayın. Deneme çalışmaya başlar ve AutoML eğitim sayfası görüntülenir. Çalıştırmalar tablosunu yenilemek için öğesine tıklayın Yenile düğmesi.

Bu sayfadan şunları yapabilirsiniz:

  • Denemeyi istediğiniz zaman durdurun.
  • Veri araştırma not defterini açın.
  • İzleme çalıştırmaları.
  • Herhangi bir çalıştırma için çalıştırma sayfasına gidin.

Databricks Runtime 10.1 ML ve üzeri sürümleriyle AutoML, desteklenmeyen sütun türleri veya yüksek kardinalite sütunları gibi veri kümesiyle ilgili olası sorunlar için uyarılar görüntüler.

Not

Databricks, olası hataları veya sorunları belirtmek için en iyisini yapar. Ancak, bu kapsamlı olmayabilir ve aradığınız sorunları veya hataları yakalamayabilir.

Veri kümesiyle ilgili uyarıları görmek için, deneme tamamlandıktan sonra eğitim sayfasındaki Uyarılar sekmesine veya deneme sayfasına tıklayın.

AutoML uyarıları

Deneme tamamlandığında şunları yapabilirsiniz:

  • MLflow ile modellerden birini kaydedin ve dağıtın .
  • En iyi modeli oluşturan not defterini gözden geçirmek ve düzenlemek için En iyi model için Not defterini görüntüle'yi seçin.
  • Veri keşfi not defterini açmak için Veri keşfi not defterini görüntüle'yi seçin.
  • Çalıştırmalar tablosundaki çalıştırmaları arayın, filtreleyin ve sıralayın.
  • Herhangi bir çalıştırmanın ayrıntılarına bakın:
    • Deneme çalıştırması için kaynak kodu içeren oluşturulan not defteri, MLflow çalıştırmasına tıklanarak bulunabilir. Not defteri, çalıştırma sayfasının Yapıtlar bölümüne kaydedilir. Yapıtları indirme çalışma alanı yöneticileriniz tarafından etkinleştirildiyse, bu not defterini indirebilir ve çalışma alanına aktarabilirsiniz.
    • Çalıştırma sonuçlarını görüntülemek için Modeller sütununa veya Başlangıç Saati sütununa tıklayın. Çalıştırma sayfası görüntülenir ve deneme çalıştırması hakkındaki bilgileri (parametreler, ölçümler ve etiketler gibi) ve model de dahil olmak üzere çalıştırma tarafından oluşturulan yapıtları gösterir. Bu sayfa ayrıca modelle tahminlerde bulunmak için kullanabileceğiniz kod parçacıkları içerir.

Bu AutoML denemesine daha sonra dönmek için denemeler sayfasındaki tabloda bulabilirsiniz. Veri keşfi ve eğitim not defterleri de dahil olmak üzere her AutoML denemesinin sonuçları, denemeyi çalıştıran kullanıcının giriş klasöründeki bir databricks_automl klasörde depolanır.

Modeli kaydetme ve dağıtma

Modelinizi AutoML kullanıcı arabirimine kaydedebilir ve dağıtabilirsiniz:

  1. Modelin kaydedilecek modeller sütunundaki bağlantıyı seçin. Çalıştırma tamamlandığında, en üst satır en iyi modeldir (birincil ölçüme göre).
  2. Modeli Model Kayıt Defteri'ne kaydetmek için seçinmodeli kaydet düğmesi.
  3. Model Kayıt Defteri'ne gitmek için kenar çubuğunda Modeller'i seçin Modeller Simgesine .
  4. Model tablosunda modelinizin adını seçin.
  5. Kayıtlı model sayfasından modele Model Sunma ile hizmet vekleyebilirsiniz.

'pandas.core.indexes.numeric adlı modül yok

Model Sunma ile AutoML kullanılarak oluşturulmuş bir modele hizmet ederken şu hatayı alabilirsiniz: No module named 'pandas.core.indexes.numeric.

Bunun nedeni AutoML ile uç nokta ortamı sunan model arasındaki uyumsuz pandas bir sürümdür. add-pandas-dependency.py betiğini çalıştırarak bu hatayı çözebilirsiniz. Betik, günlüğe requirements.txt kaydedilen modelinizin uygun pandas bağımlılık sürümünü içermesi için ve conda.yaml dosyasını düzenler:pandas==1.5.3

  1. Betiği modelinizin günlüğe kaydedildiği MLflow çalıştırmasını içerecek run_id şekilde değiştirin.
  2. Modeli MLflow model kayıt defterine yeniden kaydetme.
  3. MLflow modelinin yeni sürümünü sunma işlemini deneyin.