Azure Data Factory veya Synapse Analytics'te Hadoop Akış etkinliğini kullanarak verileri dönüştürme

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Azure Data Factory veya Synapse Analytics işlem hattındaki HDInsight Akış Etkinliği Hadoop Akış programlarını kendi veya isteğe bağlı HDInsight kümenizde yürütür. Bu makale , veri dönüştürme ve desteklenen dönüştürme etkinliklerine genel bir genel bakış sunan veri dönüştürme etkinlikleri makalesini oluşturur.

Daha fazla bilgi edinmek için Azure Data Factory ve Synapse Analytics'e giriş makalelerini okuyun ve öğretici: bu makaleyi okumadan önce verileri dönüştürme öğreticisini yapın.

Kullanıcı arabirimiyle işlem hattına HDInsight Akış etkinliği ekleme

İşlem hattında HDInsight Akış etkinliği kullanmak için aşağıdaki adımları tamamlayın:

  1. İşlem hattı Etkinlikleri bölmesinde Akış'ı arayın ve bir Akış etkinliğini işlem hattı tuvaline sürükleyin.

  2. Henüz seçili değilse tuvaldeki yeni Akış etkinliğini seçin.

  3. HdInsight kümesine Akış etkinliğini yürütmek için kullanılacak yeni bir bağlı hizmet seçmek veya oluşturmak için HDI Kümesi sekmesini seçin.

    Akış etkinliğinin kullanıcı arabirimini gösterir.

  4. Akış işinizin eşleyici ve azaltıcı adlarını belirtmek için Dosya sekmesini seçin ve iş için eşleyici, azaltıcı, giriş ve çıkış dosyalarını içeren bir Azure Depolama hesabına yeni bir bağlı hizmet seçin veya oluşturun. Ayrıca hata ayıklama yapılandırması, bağımsız değişkenler ve parametreler de dahil olmak üzere işe geçirilecek gelişmiş ayrıntıları yapılandırabilirsiniz.

    Akış etkinliği için Dosya sekmesinin kullanıcı arabirimini gösterir.

JSON örneği

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Söz dizimi ayrıntıları

Özellik Açıklama Gerekli
Adı Etkinliğin adı Yes
açıklama Etkinliğin ne için kullanıldığını açıklayan metin Hayır
Tür Hadoop Akış Etkinliği için etkinlik türü HDInsightStreaming'dir Yes
linkedServiceName Bağlı hizmet olarak kaydedilen HDInsight kümesine başvuru. Bu bağlı hizmet hakkında bilgi edinmek için bkz . Bağlı hizmetleri hesaplama makalesi. Yes
Eşleştiricisi Eşleyici yürütülebilir dosyasının adını belirtir Yes
Redüktör Azaltıcı yürütülebilir dosyasının adını belirtir Yes
Birleştir -ici Birleştirici yürütülebilir dosyasının adını belirtir Hayır
fileLinkedService Yürütülecek Eşleyici, Birleştirici ve Azaltıcı programlarını depolamak için kullanılan azure depolama bağlı hizmetine başvuru. Burada yalnızca Azure Blob Depolama ve ADLS 2. Nesil bağlı hizmetleri desteklenir. Bu Bağlı Hizmeti belirtmezseniz HDInsight Bağlı Hizmeti'nde tanımlanan Azure Depolama Bağlı Hizmeti kullanılır. Hayır
filePath fileLinkedService tarafından başvurulan Azure Depolama'da depolanan Eşleyici, Birleştirici ve Azaltıcı programlarına yönelik bir yol dizisi sağlayın. Bu yol büyük/küçük harfe duyarlıdır. Yes
input Eşleyici için giriş dosyasının WASB yolunu belirtir. Yes
çıkış Azaltıcı için çıkış dosyasının WASB yolunu belirtir. Yes
getDebugInfo Günlük dosyalarının scriptLinkedService tarafından belirtilen HDInsight kümesi (veya) tarafından kullanılan Azure Depolama'ya ne zaman kopyalandığı belirtir. İzin verilen değerler: Yok, Her Zaman veya Hata. Varsayılan değer: Hiçbiri. Hayır
Bağımsız değişken Hadoop işi için bir bağımsız değişken dizisi belirtir. Bağımsız değişkenler her göreve komut satırı bağımsız değişkenleri olarak geçirilir. Hayır
Tanım -lar Hive betiği içinde başvurmak için parametreleri anahtar/değer çiftleri olarak belirtin. Hayır

Verileri başka şekillerde dönüştürmeyi açıklayan aşağıdaki makalelere bakın: