Formát excelových souborů ve službě Azure Data Factory a Azure Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Pokud chcete analyzovat excelové soubory, postupujte podle tohoto článku. Služba podporuje .xls i .xlsx.

Formát Excelu je podporovaný pro následující konektory: Amazon S3, Amazon S3 Compatible Storage, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage a SFTP. Podporuje se jako zdroj, ale není jímka.

Poznámka:

Formát ".xls" není při používání protokolu HTTP podporován.

Vlastnosti datové sady

Úplný seznam oddílů a vlastností dostupných pro definování datových sad najdete v článku Datové sady . Tato část obsahuje seznam vlastností podporovaných datovou sadou Excelu.

Vlastnost Popis Povinní účastníci
type Vlastnost typu datové sady musí být nastavená na Excel. Ano
location Nastavení umístění souborů Každý konektor založený na souborech má svůj vlastní typ umístění a podporované vlastnosti v části location. Ano
sheetName Název excelového listu pro čtení dat. Zadat sheetName nebo sheetIndex
sheetIndex Index excelového listu pro čtení dat od 0. Zadat sheetName nebo sheetIndex
range Oblast buněk v daném listu pro vyhledání selektivních dat, například:
- Nezadá se: přečte celý list jako tabulku z prvního neprázdného řádku a sloupce.
- A3: přečte tabulku počínaje danou buňkou, dynamicky rozpozná všechny řádky pod a všechny sloupce vpravo.
- A3:H5: Přečte tuto pevnou oblast jako tabulku.
- A3:A3: Přečte tuto jedinou buňku.
No
firstRowAsHeader Určuje, jestli se má první řádek v daném listu nebo oblasti považovat za řádek záhlaví s názvy sloupců.
Povolené hodnoty jsou true a false (výchozí).
No
nullValue Určuje řetězcovou reprezentaci hodnoty null.
Výchozí hodnota je prázdný řetězec.
No
komprese Skupina vlastností pro konfiguraci komprese souborů Tuto část nakonfigurujte, když chcete během provádění aktivity provést kompresi nebo dekompresi. No
type
(v části compression)
Kodek komprese používaný ke čtení a zápisu souborů JSON.
Povolené hodnoty jsou bzip2, gzip, deflate, ZipDeflate, TarGzip, Tar, snappy nebo lz4. Výchozí hodnota není komprimována.
Všimněte si, že v současné době aktivita Copy nepodporuje "snappy" & "lz4" a mapování toku dat nepodporuje "ZipDeflate", "TarGzip" a "Tar".
Všimněte si , že při dekompresi souborů ZipDeflate a zápisu do úložiště dat jímky založené na souborech se soubory extrahují do složky: <path specified in dataset>/<folder named as source zip file>/.
Ne.
úroveň
(v části compression)
Poměr komprese.
Povolené hodnoty jsou optimální nebo nejrychlejší.
- Nejrychlejší: Operace komprese by se měla co nejrychleji dokončit, i když výsledný soubor není optimálně komprimovaný.
- Optimální: Operace komprese by měla být optimálně komprimována, i když dokončení operace trvá delší dobu. Další informace naleznete v tématu Úroveň komprese.
No

Níže je příklad excelové datové sady ve službě Azure Blob Storage:

{
    "name": "ExcelDataset",
    "properties": {
        "type": "Excel",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "sheetName": "MyWorksheet",
            "range": "A3:H5",
            "firstRowAsHeader": true
        }
    }
}

Vlastnosti aktivity kopírování

Úplný seznam oddílů a vlastností dostupných pro definování aktivit najdete v článku Pipelines . Tato část obsahuje seznam vlastností podporovaných zdrojem aplikace Excel.

Excel jako zdroj

Následující vlastnosti jsou podporovány v části aktivity kopírování *source* .

Vlastnost Popis Povinní účastníci
type Vlastnost typu zdroje aktivity kopírování musí být nastavena na ExcelSource. Ano
storeSettings Skupina vlastností, jak číst data z úložiště dat. Každý konektor založený na souborech má vlastní podporovaná nastavení čtení v části storeSettings. No
"activities": [
    {
        "name": "CopyFromExcel",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "ExcelSource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true
                }
            },
            ...
        }
        ...
    }
]

Mapování vlastností toku dat

Při mapování toků dat můžete číst formát Excelu v následujících úložištích dat: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3 a SFTP. Na excelové soubory můžete odkazovat buď pomocí datové sady Excelu, nebo pomocí vložené datové sady.

Vlastnosti zdroje

V následující tabulce jsou uvedeny vlastnosti podporované zdrojem aplikace Excel. Tyto vlastnosti můžete upravit na kartě Možnosti zdroje. Při použití vložené datové sady se zobrazí další nastavení souborů, která jsou stejná jako vlastnosti popsané v části vlastností datové sady.

Název Popis Povinní účastníci Povolené hodnoty Vlastnost skriptu toku dat
Cesty se zástupnými kartami Zpracují se všechny soubory odpovídající cestě se zástupným znakem. Přepíše složku a cestu k souboru nastavenou v datové sadě. ne Řetězec[] Zástupné cardPaths
Kořenová cesta oddílu Pro data souborů rozdělená do oddílů můžete zadat kořenovou cestu oddílu, abyste mohli číst dělené složky jako sloupce. ne String partitionRootPath
Seznam souborů Určuje, jestli váš zdroj ukazuje na textový soubor se seznamem souborů, které se mají zpracovat. ne true nebo false fileList
Sloupec pro uložení názvu souboru Vytvoření nového sloupce s názvem zdrojového souboru a cestou ne String rowUrlColumn
Po dokončení Soubory po zpracování odstraňte nebo přesuňte. Cesta k souboru začíná z kořenového adresáře kontejneru. ne Odstranit: true nebo false
Pohnout: ['<from>', '<to>']
purgeFiles
moveFiles
Filtrovat podle poslední změny Zvolte filtrování souborů na základě toho, kdy byly naposledy změněny. ne Časové razítko modifiedAfter
modifiedBefore
Povolit žádné nalezené soubory Pokud je pravda, chyba se nevyvolá, pokud se nenašly žádné soubory. ne true nebo false ignoreNoFilesFound

Příklad zdroje

Následující obrázek je příkladem konfigurace zdroje Excelu při mapování toků dat pomocí režimu datové sady.

Zdroj aplikace Excel

Přidružený skript toku dat je:

source(allowSchemaDrift: true,
    validateSchema: false,
    wildcardPaths:['*.xls']) ~> ExcelSource

Pokud používáte vloženou datovou sadu, v mapování toku dat se zobrazí následující možnosti zdroje.

Vložená datová sada zdroje Excelu

Přidružený skript toku dat je:

source(allowSchemaDrift: true,
    validateSchema: false,
    format: 'excel',
    fileSystem: 'container',
    folderPath: 'path',
    fileName: 'sample.xls',
    sheetName: 'worksheet',
    firstRowAsHeader: true) ~> ExcelSourceInlineDataset

Zpracování velmi velkých excelových souborů

Konektor Aplikace Excel nepodporuje streamování čtení pro aktivita Copy a musí před čtením dat načíst celý soubor do paměti. Pokud chcete importovat schéma, náhled dat nebo aktualizovat datovou sadu Excelu, musí se data vrátit před vypršením časového limitu požadavku HTTP (100s). U velkých excelových souborů se tyto operace nemusí dokončit v daném časovém rámci, což způsobí chybu časového limitu. Pokud chcete přesunout velké excelové soubory (>100 MB) do jiného úložiště dat, můžete toto omezení obejít pomocí jedné z následujících možností:

  • Použijte místní prostředí Integration Runtime (SHIR) a pak pomocí aktivita Copy přesuňte velký excelový soubor do jiného úložiště dat pomocí SHIR.
  • Velké excelové soubory rozdělte na několik menších a pak pomocí aktivita Copy přesuňte složku obsahující soubory.
  • Pomocí aktivity toku dat přesuňte velký excelový soubor do jiného úložiště dat. Tok dat podporuje streamování čtení pro Excel a umožňuje rychle přesouvat a přenášet velké soubory.
  • Ručně převeďte velký excelový soubor do formátu CSV a pak ho přesuňte pomocí aktivita Copy.