Bu makalede, verileri dış kaynaklardan Azure Machine Learning platformuna aktarmayı öğreneceksiniz. Başarılı bir veri içeri aktarma işlemi, bu içeri aktarma sırasında sağlanan adla bir Azure Machine Learning veri varlığını otomatik olarak oluşturur ve kaydeder. Azure Machine Learning veri varlığı, web tarayıcısı yer işaretine (sık kullanılanlar) benzer. En sık kullanılan verilerinize işaret eden uzun depolama yollarını (URI) hatırlamanız gerekmez. Bunun yerine, bir veri varlığı oluşturabilir ve ardından bu varlığa kolay bir adla erişebilirsiniz.
Veri içeri aktarma, Azure Machine Learning eğitim işlerinde daha hızlı ve güvenilir veri erişimi için meta verilerle birlikte kaynak verilerin önbelleğini oluşturur. Veri önbelleği ağ ve bağlantı kısıtlamalarını önler. Önbelleğe alınan veriler yeniden üretilebilirliği destekleyecek şekilde oluşturulur. Bu, SQL Server kaynaklarından içeri aktarılan veriler için sürüm oluşturma özellikleri sağlar. Ayrıca, önbelleğe alınan veriler denetim görevleri için veri kökeni sağlar. Veri içeri aktarmada arka planda ADF (Azure Data Factory işlem hatları) kullanılır; bu da kullanıcıların ADF ile karmaşık etkileşimlerden kaçınabileceği anlamına gelir. Azure Machine Learning, uygun paralelleştirmeyi belirleyerek veri aktarımını iyileştirmek için arka planda ADF işlem kaynak havuzu boyutunun, işlem kaynağının sağlanmasının ve yok edilmesi işlemlerinin yönetimini de üstlenir.
Aktarılan veriler bölümlenmiş ve Azure depolamada parquet dosyaları olarak güvenli bir şekilde depolanır. Bu, eğitim sırasında daha hızlı işlemeye olanak tanır. ADF işlem maliyetleri yalnızca veri aktarımları için kullanılan süreyi içerir. Depolama maliyetleri yalnızca verileri önbelleğe almak için gereken süreyi içerir, çünkü önbelleğe alınan veriler dış kaynaktan içeri aktarılan verilerin bir kopyasıdır. Azure depolama bu dış kaynağı barındırıyor.
Önbelleğe alma özelliği ön işlem ve depolama maliyetlerini içerir. Ancak, eğitim sırasında dış kaynak verilerine doğrudan bağlantılarla karşılaştırıldığında yinelenen eğitim işlem maliyetlerini azalttığı için kendisi için ödeme yapabilir ve tasarruf edebilir. Verileri parquet dosyaları olarak önbelleğe alır ve bu da daha büyük veri kümeleri için bağlantı zaman aşımlarına karşı iş eğitimini daha hızlı ve güvenilir hale getirir. Bu da daha az yeniden çalıştırmaya ve daha az eğitim hatasına yol açar.
Amazon S3, Azure SQL ve Snowflake'den verileri içeri aktarabilirsiniz.
Önemli
Bu özellik şu anda genel önizlemededir. Bu önizleme sürümü hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için bu sürümü önermeyiz. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir.
Başarılı bir veri içeri aktarma işlemi için SDK için en son azure-ai-ml paketini (sürüm 1.15.0 veya üzeri) ve ml uzantısını (sürüm 2.15.1 veya üzeri) yüklediğinizi doğrulayın.
Daha eski bir SDK paketiniz veya CLI uzantınız varsa, lütfen eskisini kaldırın ve yenisini sekme bölümünde gösterilen kodla yükleyin. Burada gösterildiği gibi SDK ve CLI yönergelerini izleyin:
az extension remove -n ml
az extension add -n ml --yes
az extension show -n ml #(the version value needs to be 2.15.1 or later)
pip install azure-ai-ml
pip show azure-ai-ml #(the version value needs to be 1.15.0 or later)
Kullanılamaz.
Dış veritabanından mltable veri varlığı olarak içeri aktarma
Not
Dış veritabanlarında Snowflake, Azure SQL vb. biçimleri olabilir.
Aşağıdaki kod örnekleri dış veritabanlarından verileri içeri aktarabilir. İçeri connection aktarma eylemini işleyen, dış veritabanı veri kaynağı meta verilerini belirler. Bu örnekte kod, snowflake kaynağından verileri içeri aktarır. Bağlantı bir Snowflake kaynağına işaret eder. Küçük bir değişiklikle, bağlantı bir Azure SQL veritabanı kaynağına ve bir Azure SQL veritabanı kaynağına işaret edebilir. Dış veritabanı kaynağından içeri aktarılan varlık type şeklindedir mltable.
Sol gezinti bölmesindeki Varlıklar'ın altında Veri'yi seçin. Ardından, Veri İçeri Aktarma sekmesini seçin. Ardından, bu ekran görüntüsünde gösterildiği gibi Oluştur'u seçin:
Veri Kaynağı ekranında Kar Tanesi'ni ve ardından bu ekran görüntüsünde gösterildiği gibi İleri'yi seçin:
Veri Türü ekranında değerleri doldurun. Tür değeri varsayılan olarak Tablo (mltable) olur. Ardından, bu ekran görüntüsünde gösterildiği gibi İleri'yi seçin:
Veri içeri aktarma oluştur ekranında, değerleri doldurun ve bu ekran görüntüsünde gösterildiği gibi İleri'yi seçin:
Çıkış için bir veri deposu seçin ekranındaki değerleri doldurun ve bu ekran görüntüsünde gösterildiği gibi İleri'yi seçin. Çalışma alanı tarafından yönetilen veri deposu varsayılan olarak seçilidir; yönetilen veri deposu seçtiğinizde yol sistem tarafından otomatik olarak atanır. Çalışma alanı tarafından yönetilen veri deposu'nu seçerseniz Otomatik silme ayarı açılan menüsü görüntülenir. Varsayılan olarak 30 günlük bir veri silme süresi penceresi sunar ve içeri aktarılan veri varlıklarının nasıl yönetileceğini bu değerin nasıl değiştirileceğini açıklar.
Not
Kendi veri deponuzu seçmek için Diğer veri depoları'nı seçin. Bu durumda, veri önbelleğinin konumu için yolu seçmeniz gerekir.
Zamanlama ekleyebilirsiniz. Bu ekran görüntüsünde gösterildiği gibi Zamanlama ekle'yi seçin:
Yinelenme zamanlaması veya Cron zamanlaması tanımlayabileceğiniz yeni bir panel açılır. Bu ekran görüntüsünde Yinelenme zamanlaması paneli gösterilmektedir:
Ad: Çalışma alanı içindeki zamanlamanın benzersiz tanımlayıcısı.
Açıklama: zamanlama açıklaması.
Tetikleyici: Aşağıdaki özellikleri içeren zamanlamanın yinelenme düzeni.
Saat dilimi: Tetikleyici saat hesaplaması bu saat dilimini temel alır; (UTC) Eşgüdümlü Evrensel Saat varsayılan olarak.
Yinelenme veya Cron ifadesi: Yinelenen düzeni belirtmek için yinelenmeyi seçin. Yinelenme altında, yinelenme sıklığını dakika, saat, gün, hafta veya aya göre belirtebilirsiniz.
Başlangıç: Zamanlama ilk olarak bu tarihte etkin hale gelir. Varsayılan olarak, bu zamanlamanın oluşturma tarihidir.
Bitiş: Zamanlama bu tarihten sonra etkin olmayacaktır. Varsayılan olarak NONE değeridir ve siz el ile devre dışı bırakılıncaya kadar zamanlamanın her zaman etkin olacağı anlamına gelir.
Etiketler: Seçilen zamanlama etiketleri.
Not
Başlangıç , zamanlamanın saat dilimiyle birlikte başlangıç tarihini ve saatini belirtir. Başlangıç belirtilmezse, başlangıç saati zamanlama oluşturma zamanına eşittir. Geçmişteki bir başlangıç zamanı için, ilk iş bir sonraki hesaplanmış çalışma zamanında çalışır.
Sonraki ekran görüntüsünde bu işlemin son ekranı gösterilir. Seçimlerinizi gözden geçirin ve Oluştur'u seçin. Bu ekranda ve bu işlemdeki diğer ekranlarda, değer seçimlerinizi değiştirmek üzere önceki ekranlara gitmek için Geri'yi seçin.
Bu ekran görüntüsünde Cron zamanlaması için panel gösterilmektedir:
Ad: Çalışma alanı içindeki zamanlamanın benzersiz tanımlayıcısı.
Açıklama: zamanlama açıklaması.
Tetikleyici: Aşağıdaki özellikleri içeren zamanlamanın yinelenme düzeni.
Saat dilimi: Tetikleyici saat hesaplaması bu saat dilimini temel alır; (UTC) Eşgüdümlü Evrensel Saat varsayılan olarak.
Yinelenme veya Cron ifadesi: Cron ayrıntılarını belirtmek için cron ifadesini seçin.
(Gerekli)expression yinelenen bir zamanlamayı ifade etmek için standart bir crontab ifadesi kullanır. Tek bir ifade, boşlukla ayrılmış beş alandan oluşur:
MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK
Alanın tüm değerlerini kapsayan tek bir joker karakter (* ). *gün olarak, ayın tüm günleri anlamına gelir (ay ve yıla göre değişir).
expression: "15 16 * * 1" Yukarıdaki örnekteki değeri, her Pazartesi günü saat 23:15 anlamına gelir.
Sonraki tabloda her alan için geçerli değerler listelenir:
Alan
Aralık
Yorum
MINUTES
0-59
-
HOURS
0-23
-
DAYS
-
Desteklenmiyor. Değer yoksayılır ve olarak *değerlendirilir.
MONTHS
-
Desteklenmiyor. Değer yoksayılır ve olarak *değerlendirilir.
DAYS-OF-WEEK
0-6
Sıfır (0), Pazar anlamına gelir. Gün adları da kabul edilir.
DAYS ve MONTH desteklenmez. Bu değerlerden birini geçirirseniz, yoksayılır ve olarak *değerlendirilir.
Başlangıç: Zamanlama ilk olarak bu tarihte etkin hale gelir. Varsayılan olarak, bu zamanlamanın oluşturma tarihidir.
Bitiş: Zamanlama bu tarihten sonra etkin olmayacaktır. Varsayılan olarak NONE değeridir ve siz el ile devre dışı bırakılıncaya kadar zamanlamanın her zaman etkin olacağı anlamına gelir.
Etiketler: Seçilen zamanlama etiketleri.
Not
Başlangıç , zamanlamanın saat dilimiyle birlikte başlangıç tarihini ve saatini belirtir. Başlangıç belirtilmezse, başlangıç saati zamanlama oluşturma zamanına eşittir. Geçmişteki bir başlangıç zamanı için, ilk iş bir sonraki hesaplanmış çalışma zamanında çalışır.
Sonraki ekran görüntüsünde bu işlemin son ekranı gösterilir. Seçimlerinizi gözden geçirin ve Oluştur'u seçin. Bu ekranda ve bu işlemdeki diğer ekranlarda, değer seçimlerinizi değiştirmek üzere önceki ekranlara gitmek için Geri'yi seçin.
Dış dosya sisteminden verileri klasör veri varlığı olarak içeri aktarma
Not
Amazon S3 veri kaynağı, dış dosya sistemi kaynağı olarak görev yapabilir.
connection Veri içeri aktarma eylemini işleyen, dış veri kaynağının yönlerini belirler. Bağlantı, hedef olarak bir Amazon S3 demeti tanımlar. Bağlantı geçerli path bir değer bekler. Dış dosya sistemi kaynağından içeri aktarılan varlık değerinin bir type değeri uri_foldervardır.
Sonraki kod örneği bir Amazon S3 kaynağından verileri içeri aktarır.
Sol gezinti bölmesindeki Varlıklar'ın altında Veri'yi seçin. Ardından, Veri İçeri Aktarma sekmesini seçin. Ardından bu ekran görüntüsünde gösterildiği gibi Oluştur'u seçin:
Veri Kaynağı ekranında S3'i ve ardından bu ekran görüntüsünde gösterildiği gibi İleri'yi seçin:
Veri Türü ekranında değerleri doldurun. Tür değeri varsayılan olarak Klasör (uri_folder) olur. Ardından, bu ekran görüntüsünde gösterildiği gibi İleri'yi seçin:
Veri içeri aktarma oluştur ekranında, değerleri doldurun ve bu ekran görüntüsünde gösterildiği gibi İleri'yi seçin:
Çıkış için bir veri deposu seçin ekranındaki değerleri doldurun ve bu ekran görüntüsünde gösterildiği gibi İleri'yi seçin. Çalışma alanı tarafından yönetilen veri deposu varsayılan olarak seçilidir; yönetilen veri deposu'nu seçtiğinizde yol sistem tarafından otomatik olarak atanır. Çalışma alanı tarafından yönetilen veri deposu'nu seçerseniz Otomatik silme ayarı açılan menüsü görüntülenir. Varsayılan olarak 30 günlük bir veri silme süresi penceresi sunar ve içeri aktarılan veri varlıklarının nasıl yönetileceğini bu değerin nasıl değiştirileceğini açıklar.
Zamanlama ekleyebilirsiniz. Bu ekran görüntüsünde gösterildiği gibi Zamanlama ekle'yi seçin:
Yinelenme zamanlaması veya Cron zamanlaması tanımlayabileceğiniz yeni bir panel açılır. Bu ekran görüntüsünde Yinelenme zamanlaması paneli gösterilmektedir:
Ad: Çalışma alanı içindeki zamanlamanın benzersiz tanımlayıcısı.
Açıklama: zamanlama açıklaması.
Tetikleyici: Aşağıdaki özellikleri içeren zamanlamanın yinelenme düzeni.
Saat dilimi: Tetikleyici saat hesaplaması bu saat dilimini temel alır; (UTC) Eşgüdümlü Evrensel Saat varsayılan olarak.
Yinelenme veya Cron ifadesi: Yinelenen düzeni belirtmek için yinelenmeyi seçin. Yinelenme altında, yinelenme sıklığını dakika, saat, gün, hafta veya aya göre belirtebilirsiniz.
Başlangıç: Zamanlama ilk olarak bu tarihte etkin hale gelir. Varsayılan olarak, bu zamanlamanın oluşturma tarihidir.
Bitiş: Zamanlama bu tarihten sonra etkin olmayacaktır. Varsayılan olarak NONE değeridir ve siz el ile devre dışı bırakılıncaya kadar zamanlamanın her zaman etkin olacağı anlamına gelir.
Etiketler: Seçilen zamanlama etiketleri.
Not
Başlangıç , zamanlamanın saat dilimiyle birlikte başlangıç tarihini ve saatini belirtir. Başlangıç belirtilmezse, başlangıç saati zamanlama oluşturma zamanına eşittir. Geçmişteki bir başlangıç zamanı için, ilk iş bir sonraki hesaplanmış çalışma zamanında çalışır.
Sonraki ekran görüntüsünde gösterildiği gibi, bu işlemin son ekranındaki seçimlerinizi gözden geçirin ve Oluştur'u seçin. Bu ekranda ve bu işlemdeki diğer ekranlarda, değer seçimlerinizi değiştirmek isterseniz önceki ekranlara gitmek için Geri'yi seçin.
Sonraki ekran görüntüsünde bu işlemin son ekranı gösterilir. Seçimlerinizi gözden geçirin ve Oluştur'u seçin. Bu ekranda ve bu işlemdeki diğer ekranlarda, değer seçimlerinizi değiştirmek üzere önceki ekranlara gitmek için Geri'yi seçin.
Bu ekran görüntüsünde Cron zamanlaması için panel gösterilmektedir:
Ad: Çalışma alanı içindeki zamanlamanın benzersiz tanımlayıcısı.
Açıklama: zamanlama açıklaması.
Tetikleyici: Aşağıdaki özellikleri içeren zamanlamanın yinelenme düzeni.
Saat dilimi: Tetikleyici saat hesaplaması bu saat dilimini temel alır; (UTC) Eşgüdümlü Evrensel Saat varsayılan olarak.
Yinelenme veya Cron ifadesi: Cron ayrıntılarını belirtmek için cron ifadesini seçin.
(Gerekli)expression yinelenen bir zamanlamayı ifade etmek için standart bir crontab ifadesi kullanır. Tek bir ifade, boşlukla ayrılmış beş alandan oluşur:
MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK
Alanın tüm değerlerini kapsayan tek bir joker karakter (* ). *gün olarak, ayın tüm günleri anlamına gelir (ay ve yıla göre değişir).
expression: "15 16 * * 1" Yukarıdaki örnekteki değeri, her Pazartesi günü saat 23:15 anlamına gelir.
Sonraki tabloda her alan için geçerli değerler listelenir:
Alan
Aralık
Yorum
MINUTES
0-59
-
HOURS
0-23
-
DAYS
-
Desteklenmiyor. Değer yoksayılır ve olarak *değerlendirilir.
MONTHS
-
Desteklenmiyor. Değer yoksayılır ve olarak *değerlendirilir.
DAYS-OF-WEEK
0-6
Sıfır (0), Pazar anlamına gelir. Gün adları da kabul edilir.
DAYS ve MONTH desteklenmez. Bu değerlerden birini geçirirseniz, yoksayılır ve olarak *değerlendirilir.
Başlangıç: Zamanlama ilk olarak bu tarihte etkin hale gelir. Varsayılan olarak, bu zamanlamanın oluşturma tarihidir.
Bitiş: Zamanlama bu tarihten sonra etkin olmayacaktır. Varsayılan olarak NONE değeridir ve siz el ile devre dışı bırakılıncaya kadar zamanlamanın her zaman etkin olacağı anlamına gelir.
Etiketler: Seçilen zamanlama etiketleri.
Not
Başlangıç , zamanlamanın saat dilimiyle birlikte başlangıç tarihini ve saatini belirtir. Başlangıç belirtilmezse, başlangıç saati zamanlama oluşturma zamanına eşittir. Geçmişteki bir başlangıç zamanı için, ilk iş bir sonraki hesaplanmış çalışma zamanında çalışır.
Sonraki ekran görüntüsünde bu işlemin son ekranı gösterilir. Seçimlerinizi gözden geçirin ve Oluştur'u seçin. Bu ekranda ve bu işlemdeki diğer ekranlarda, değer seçimlerinizi değiştirmek üzere önceki ekranlara gitmek için Geri'yi seçin.
Dış veri kaynaklarının içeri aktarma durumunu denetleme
Veri içeri aktarma eylemi zaman uyumsuz bir eylemdir. Uzun sürebilir. CLI veya SDK aracılığıyla bir içeri aktarma verisi eylemi gönderildikten sonra, Azure Machine Learning hizmetinin dış veri kaynağına bağlanması için birkaç dakika gerekebilir. Daha sonra hizmet, veri içeri aktarma işlemini başlatır ve veri önbelleğe alma ve kayıt işlemlerini işler. Veri içeri aktarma için gereken süre, kaynak veri kümesinin boyutuna da bağlıdır.
Sonraki örnek, gönderilen veri içeri aktarma etkinliğinin durumunu döndürür. Komut veya yöntem, veri gerçekleştirme durumunu belirlemek için giriş olarak "veri varlığı" adını kullanır.