Otomatik Yükleyici nedir?

Otomatik Yükleyici, ek kurulum olmadan bulut depolama alanına ulaşan yeni veri dosyalarını artımlı ve verimli bir şekilde işler.

Otomatik Yükleyici nasıl çalışır?

Otomatik Yükleyici, bulut depolama alanına ulaştıklarında yeni veri dosyalarını artımlı ve verimli bir şekilde işler. adlı cloudFilesbir Yapılandırılmış Akış kaynağı sağlar. Bulut dosya depolaması üzerindeki bir giriş dizini yolu göz önüne alındığında, cloudFiles kaynak yeni dosyaları geldikçe otomatik olarak işler ve bu dizindeki mevcut dosyaları da işleme seçeneği vardır. Otomatik Yükleyici, Delta Live Tablolarında hem Python hem de SQL desteğine sahiptir.

Tabloyu geçirmek veya doldurmak için milyarlarca dosyayı işlemek için Otomatik Yükleyici'yi kullanabilirsiniz. Otomatik Yükleyici, saatte milyonlarca dosyanın neredeyse gerçek zamanlı alımını destekleyecek şekilde ölçeklendirilir.

Desteklenen Otomatik Yükleyici kaynakları

Otomatik Yükleyici aşağıdaki kaynaklardan veri dosyalarını yükleyebilir:

  • Amazon S3 (s3://)

  • Azure Data Lake Storage 2. Nesil (ADLS 2. Nesil, abfss://)

  • Google Cloud Storage (GCS, gs://)

  • Azure Blob Depolama (wasbs://)

    Not

    Eski Windows Azure Depolama Blobu sürücüsü (WASB) kullanım dışı bırakıldı. ABFS'nin WASB'ye göre çok sayıda avantajı vardır. ABFS ile ilgili Azure belgelerine bakın. Eski WASB sürücüsüyle çalışma belgeleri için bkz. WASB (eski) ile Azure Blob Depolama bağlanma.

  • ADLS 1. Nesil (adl://)

    Not

    Azure, Azure Data Lake Storage 1. Nesil'nin kullanımdan kaldırıldığını duyurdu. Databricks, azure Data Lake Storage 1. Nesil tüm verilerin Azure Data Lake Storage 2. Nesil geçirilmesini önerir. Henüz geçirmediyseniz bkz. Azure Databricks'ten Azure Data Lake Storage 1. Nesil erişme.

  • Databricks Dosya Sistemi (DBFS, dbfs:/).

Otomatik Yükleyici , , CSV, , , PARQUET, AVRO, ORC, TEXTve BINARYFILE dosya biçimlerini alabilirJSONXML.

Otomatik Yükleyici alımın ilerleme durumunu nasıl izler?

Dosyalar bulundukçe, meta verileri Otomatik Yükleyici işlem hattınızın denetim noktası konumunda ölçeklenebilir bir anahtar-değer deposunda (RocksDB) kalıcı hale gelir. Bu anahtar-değer deposu, verilerin tam olarak bir kez işlenmesini sağlar.

Hata durumunda, Otomatik Yükleyici denetim noktası konumunda depolanan bilgilerle kaldığı yerden devam edebilir ve Delta Lake'e veri yazarken tam olarak bir kez garanti sağlamaya devam edebilir. Hataya dayanıklılık veya tam olarak bir kez semantik elde etmek için herhangi bir durumu kendiniz korumanız veya yönetmeniz gerekmez.

Delta Live Tablolarla Otomatik Yükleyici kullanarak artımlı alma

Databricks, artımlı veri alımı için Delta Live Tablolarında Otomatik Yükleyici'yi önerir. Delta Live Tables, Apache Spark Yapılandırılmış Akışı'ndaki işlevselliği genişletir ve üretim kalitesinde bir veri işlem hattı dağıtmak için yalnızca birkaç satır bildirim temelli Python veya SQL yazmanıza olanak tanır:

Delta Live Tables işlem hatlarınız için bu ayarları otomatik olarak yönettiği için şema veya denetim noktası konumu sağlamanız gerekmez. Bkz . Delta Live Tabloları ile veri yükleme.

Databricks, bulut nesne depolama alanından veri almak için Apache Spark Yapılandırılmış Akış'ı her kullandığınızda Otomatik Yükleyici'yi de önerir. API'ler Python ve Scala'da kullanılabilir.

Databricks Otomatik Yükleyici'yi kullanmaya başlama

Delta Live Tablolu Otomatik Yükleyici kullanarak artımlı veri alımını yapılandırmaya başlamak için aşağıdaki makalelere bakın:

Örnekler: Yaygın Otomatik Yükleyici desenleri

Yaygın Otomatik Yükleyici desenleri örnekleri için bkz . Yaygın veri yükleme desenleri.

Otomatik Yükleyici seçeneklerini yapılandırma

Otomatik Yükleyici'yi veri hacmine, çeşitliliğe ve hıza göre ayarlayabilirsiniz.

Otomatik Yükleyici seçeneklerinin tam listesi için bkz:

Beklenmeyen performansla karşılaşırsanız SSS bölümüne bakın.

Otomatik Yükleyici dosya algılama modlarını yapılandırma

Otomatik Yükleyici iki dosya algılama modunu destekler. Bkz.

Otomatik Yükleyici'nin, doğrudan dosyalarda Yapılandırılmış Akış'ın kullanılmasına göre avantajları

Apache Spark'ta kullanarak dosyaları artımlı olarak spark.readStream.format(fileFormat).load(directory)okuyabilirsiniz. Otomatik Yükleyici, dosya kaynağı üzerinde aşağıdaki avantajları sağlar:

  • Ölçeklenebilirlik: Otomatik Yükleyici milyarlarca dosyayı verimli bir şekilde bulabilir. Herhangi bir işlem kaynağının boşa harcanmasını önlemek için yedekler zaman uyumsuz olarak gerçekleştirilebilir.
  • Performans: Otomatik Yükleyici ile dosyaları bulmanın maliyeti, dosyaların inebileceği dizin sayısı yerine alınan dosya sayısıyla ölçeklendirilir. Bkz. Otomatik Yükleyici dizin listeleme modu nedir?.
  • Şema çıkarımı ve evrim desteği: Otomatik Yükleyici şema kaymalarını algılayabilir, şema değişiklikleri gerçekleştiğinde sizi bilgilendirebilir ve aksi takdirde yoksayılmış veya kaybolacak verileri kurtarabilir. Bkz . Otomatik Yükleyici şema çıkarımı nasıl çalışır?.
  • Maliyet: Otomatik Yükleyici, depolama alanında bulunan dosyaların listesini almak için yerel bulut API'lerini kullanır. Ayrıca, Otomatik Yükleyici'nin dosya bildirim modu, dizin listelemesini tamamen önleyerek bulut maliyetlerinizi daha da azaltmanıza yardımcı olabilir. Otomatik Yükleyici, dosya bulmayı çok daha ucuza getirmek için depolama alanında dosya bildirim hizmetlerini otomatik olarak ayarlayabilir.