Azure Data Factory ve Synapse Analytics'te ORC biçimi

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

ORC dosyalarını ayrıştırmak veya verileri ORC biçiminde yazmak istediğinizde bu makaleyi izleyin.

ORC biçimi şu bağlayıcılar için desteklenir: Amazon S3, Amazon S3 Uyumlu Depolama, Azure Blob, Azure Data Lake Storage 1. Nesil, Azure Data Lake Storage 2. Nesil, Azure Dosyalar, Dosya Sistemi, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage ve SFTP.

Veri kümesi özellikleri

Veri kümelerini tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için Veri kümeleri makalesine bakın. Bu bölümde, ORC veri kümesi tarafından desteklenen özelliklerin listesi sağlanır.

Özellik Açıklama Gerekli
Tür Veri kümesinin type özelliği Orc olarak ayarlanmalıdır. Yes
konum Dosya konum ayarları. Her dosya tabanlı bağlayıcının kendi konum türü ve altında locationdesteklenen özellikleri vardır. Bağlayıcı makalesi -> Veri kümesi özellikleri bölümündeki ayrıntılara bakın. Yes
compressionCodec ORC dosyalarına yazarken kullanılacak sıkıştırma codec bileşeni. ORC dosyalarından okurken, Veri Fabrikaları dosya meta verilerini temel alarak sıkıştırma codec'ini otomatik olarak belirler.
Desteklenen türler hiçbiri, zlib, snappy (varsayılan) ve lzo'dır. Şu anda Kopyalama etkinliği, ORC dosyaları okunurken/yazılırken LZO'yu desteklemez.
Hayır

Aşağıda Azure Blob Depolama'da ORC veri kümesi örneği verilmiştir:

{
    "name": "OrcDataset",
    "properties": {
        "type": "Orc",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            }
        }
    }
}

Aaşağıdaki noktaları unutmayın:

  • Karmaşık veri türleri (örneğin MAP, LIST, STRUCT) şu anda kopyalama etkinliğinde değil yalnızca Veri Akışı'lerde desteklenmektedir. Veri akışlarında karmaşık türler kullanmak için, veri kümesinde şemayı boş bırakarak veri kümesindeki dosya şemasını içeri aktarmayın. Ardından Kaynak dönüşümünde projeksiyonu içeri aktarın.
  • Sütun adında boşluk desteklenmiyor.

Kopyalama etkinliğinin özellikleri

Etkinlikleri tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için İşlem hatları makalesine bakın. Bu bölüm, ORC kaynağı ve havuzu tarafından desteklenen özelliklerin listesini sağlar.

Kaynak olarak ORC

Kopyalama etkinliği *kaynak* bölümünde aşağıdaki özellikler desteklenir.

Özellik Açıklama Gerekli
Tür Kopyalama etkinliği kaynağının type özelliği OrcSource olarak ayarlanmalıdır. Yes
storeSettings Veri deposundan veri okuma hakkında bir özellik grubu. Her dosya tabanlı bağlayıcının altında storeSettingskendi desteklenen okuma ayarları vardır. Bağlayıcı makalesi -> Kopyalama etkinliği özellikleri bölümündeki ayrıntılara bakın. Hayır

Havuz olarak ORC

Kopyalama etkinliği *havuz* bölümünde aşağıdaki özellikler desteklenir.

Özellik Açıklama Gerekli
Tür Kopyalama etkinliği havuzu type özelliği OrcSink olarak ayarlanmalıdır. Yes
formatSettings Bir özellik grubu. Aşağıdaki ORC yazma ayarları tablosuna bakın. Hayır
storeSettings Veri deposuna veri yazma hakkında bir özellik grubu. Her dosya tabanlı bağlayıcının altında storeSettingskendi desteklenen yazma ayarları vardır. Bağlayıcı makalesi -> Kopyalama etkinliği özellikleri bölümündeki ayrıntılara bakın. Hayır

altında formatSettingsdesteklenen ORC yazma ayarları:

Özellik Açıklama Gerekli
Tür formatSettings türü OrcWriteSettings olarak ayarlanmalıdır. Yes
maxRowsPerFile Bir klasöre veri yazarken, birden çok dosyaya yazmayı ve dosya başına en fazla satırı belirtmeyi seçebilirsiniz. Hayır
fileNamePrefix Yapılandırıldığında maxRowsPerFile geçerlidir.
Birden çok dosyaya veri yazarken dosya adı ön ekini belirtin; bunun sonucunda şu desen elde edilir: <fileNamePrefix>_00000.<fileExtension>. Belirtilmezse, dosya adı ön eki otomatik olarak oluşturulur. Bu özellik, kaynak dosya tabanlı depo veya bölüm seçeneği etkin veri deposu olduğunda geçerli değildir.
Hayır

Eşleme veri akışı özellikleri

Veri akışlarını eşlemede, şu veri depolarında ORC biçimini okuyabilir ve yazabilirsiniz: Azure Blob Depolama, Azure Data Lake Storage 1. Nesil, Azure Data Lake Storage 2. Nesil ve SFTP ve Amazon S3'te ORC biçimini okuyabilirsiniz.

ORC veri kümesini veya satır içi veri kümesini kullanarak ORC dosyalarına işaret edebilirsiniz.

Kaynak özellikleri

Aşağıdaki tabloda ORC kaynağı tarafından desteklenen özellikler listelenmektedir. Bu özellikleri Kaynak seçenekleri sekmesinde düzenleyebilirsiniz.

Satır içi veri kümesini kullanırken, veri kümesi özellikleri bölümünde açıklanan özelliklerle aynı olan ek dosya ayarlarını görürsünüz.

Veri Akışı Adı Açıklama Gerekli İzin verilen değerler Veri akışı betiği özelliği
Biçimlendir Biçim şu şekilde olmalıdır: orc evet orc format
Joker karakter yolları Joker karakter yoluyla eşleşen tüm dosyalar işlenir. Veri kümesinde ayarlanan klasörü ve dosya yolunu geçersiz kılar. hayır Dize[] joker karakterler
Bölüm kök yolu Bölümlenmiş dosya verileri için bölümlenmiş klasörleri sütun olarak okumak için bir bölüm kök yolu girebilirsiniz hayır String partitionRootPath
Dosya listesi Kaynağınızın işlenmek üzere dosyaları listeleyen bir metin dosyasına işaret edip etmediği hayır true veya false fileList
Dosya adını depolamak için sütun Kaynak dosya adı ve yolu ile yeni bir sütun oluşturma hayır String rowUrlColumn
Tamamlandıktan sonra İşlemden sonra dosyaları silin veya taşıyın. Dosya yolu kapsayıcı kökünden başlar hayır Sil: true veya false
Hareket etmek: [<from>, <to>]
purgeFiles
moveFiles
Son değiştirme ölçütüne göre filtrele Dosyaları son değiştirilme zamanlarına göre filtrelemeyi seçin hayır Zaman damgası modifiedAfter
modifiedBefore
Dosya bulunamadığında izin ver True ise, hiçbir dosya bulunamazsa hata oluşmaz hayır true veya false ignoreNoFilesFound

Kaynak örneği

ORC kaynak yapılandırmasının ilişkili veri akışı betiği:

source(allowSchemaDrift: true,
    validateSchema: false,
    rowUrlColumn: 'fileName',
    format: 'orc') ~> OrcSource

Havuz özellikleri

Aşağıdaki tabloda ORC havuzu tarafından desteklenen özellikler listelenmiştir. Bu özellikleri Ayarlar sekmesinde düzenleyebilirsiniz.

Satır içi veri kümesini kullanırken, veri kümesi özellikleri bölümünde açıklanan özelliklerle aynı olan ek dosya ayarlarını görürsünüz.

Veri Akışı Adı Açıklama Gerekli İzin verilen değerler Veri akışı betiği özelliği
Biçimlendir Biçim şu şekilde olmalıdır: orc evet orc format
Klasörü temizleme Hedef klasör yazmadan önce temizlenirse hayır true veya false truncate
Dosya adı seçeneği Yazılan verilerin adlandırma biçimi. Varsayılan olarak, bölüm başına bir dosya biçimindedir part-#####-tid-<guid> hayır Desen: Dize
Bölüm başına: Dize[]
Sütunda veri olarak: Dize
Tek bir dosyaya çıkış: ['<fileName>']
filePattern
partitionFileNames
rowUrlColumn
partitionFileNames

Havuz örneği

ORC havuz yapılandırmasının ilişkili veri akışı betiği şöyledir:

OrcSource sink(
    format: 'orc',
    filePattern:'output[n].orc',
    truncate: true,
    allowSchemaDrift: true,
    validateSchema: false,
    skipDuplicateMapInputs: true,
    skipDuplicateMapOutputs: true) ~> OrcSink

Şirket İçinde Barındırılan Tümleştirme Çalışma Zamanını Kullanma

Önemli

Şirket içi ve bulut veri depoları arasında şirket içinde barındırılan Integration Runtime tarafından güçlendirilen kopyalama için, ORC dosyalarını olduğu gibi kopyalamıyorsanız, IR makinenize 64 bit JRE 8 (Java Çalışma Zamanı Ortamı) veya OpenJDK ve Microsoft Visual C++ 2010 Yeniden Dağıtılabilir Paketi yüklemeniz gerekir. Daha fazla ayrıntı içeren aşağıdaki paragrafı denetleyin.

ORC dosya serileştirme/seri durumdan çıkarma ile Şirket içinde barındırılan IR üzerinde çalışan kopyalama için hizmet, ilk olarak JRE için kayıt defterini (SOFTWARE\JavaSoft\Java Runtime Environment\{Current Version}\JavaHome) denetleyerek Java çalışma zamanını bulur, bulunamazsa ikinci olarak OpenJDK için sistem değişkenini JAVA_HOME denetler.

  • JRE'yi kullanmak için: 64 bit IR için 64 bit JRE gerekir. Buradan bulabilirsiniz.
  • OpenJDK'yi kullanmak için: IR sürüm 3.13'ten bu yana desteklenir. jvm.dll OpenJDK'nin diğer tüm gerekli derlemeleriyle şirket içinde barındırılan IR makinesine paketleyin ve sistem ortamı değişkenini buna göre JAVA_HOME ayarlayın.
  • Visual C++ 2010 Yeniden Dağıtılabilir Paketi yüklemek için: Visual C++ 2010 Yeniden Dağıtılabilir Paketi şirket içinde barındırılan IR yüklemeleriyle yüklenmez. Buradan bulabilirsiniz.

İpucu

Şirket İçinde Barındırılan Tümleştirme Çalışma Zamanı'nı kullanarak ORC biçimine/biçiminden veri kopyalar ve "Java çağrılırken bir hata oluştu, ileti: java.lang.OutOfMemoryError:Java yığın alanı" hatasıyla karşılaşırsanız, şirket içinde barındırılan IR'yi barındıran makineye JVM'nin bu kopyalamayı güçlendirmek için en küçük/en büyük yığın boyutunu ayarlamak üzere bir ortam değişkeni _JAVA_OPTIONS ekleyebilir ve işlem hattını yeniden çalıştırabilirsiniz.

Şirket içinde barındırılan IR'de JVM yığın boyutunu ayarlama

Örnek: değeriyle -Xms256m -Xmx16gdeğişken _JAVA_OPTIONS ayarlama. bayrağı Xms bir Java Sanal Makinesi (JVM) için ilk bellek ayırma havuzunu belirtirken Xmx , en yüksek bellek ayırma havuzunu belirtir. Bu, JVM'nin bellek miktarıyla Xms başlatılacağı ve en fazla Xmx bellek miktarını kullanabileceği anlamına gelir. Varsayılan olarak hizmet en az 64 MB ve en fazla 1G kullanır.