Formáty dat podporované Azure Data Explorerem pro příjem dat
Příjem dat je proces, pomocí kterého se data přidají do tabulky a jsou k dispozici pro dotazy v Azure Data Exploreru. U všech metod příjmu dat, kromě ingestování z dotazu, musí být data v jednom z podporovaných formátů. Následující tabulka uvádí a popisuje formáty, které Azure Data Explorer podporuje pro příjem dat.
Poznámka:
Před ingestováním dat se ujistěte, že jsou data správně naformátovaná a definují očekávaná pole. Doporučujeme použít preferovaný validátor k potvrzení platnosti formátu. Můžete například najít následující validátory užitečné ke kontrole souborů CSV nebo JSON:
- CSV: http://csvlint.io/
- JSON: https://jsonlint.com/
Další informace o tom, proč může příjem dat selhat, najdete v tématu Chyby příjmu dat a kódy chyb příjmu dat v Azure Data Exploreru.
Formát | Rozšíření | Popis |
---|---|---|
ApacheAvro | .avro |
Formát AVRO s podporou logických typů. Podporují se následující komprimační kodeky: null , deflate a snappy . Implementace apacheavro formátu je založena na oficiální knihovně Apache Avro. Informace o ingestování souborů Avro zachytávání služby Event Hubs najdete v tématu Ingesting Event Hubs Capture Avro files. |
Avro | .avro |
Starší implementace pro formát AVRO založená na knihovně .NET. Podporují se následující komprimační kodeky: null , deflate (pro snappy použití ApacheAvro formátu dat). |
CSV | .csv |
Textový soubor s hodnotami oddělenými čárkami (, ). Viz RFC 4180: Běžný formát a typ MIME pro soubory hodnot oddělených čárkami (CSV). |
JSON | .json |
Textový soubor s objekty JSON oddělenými \n nebo \r\n . Viz řádky JSON (JSONL). |
MultiJSON | .multijson |
Textový soubor s polem vlastností JSON (každý představuje záznam) nebo libovolný počet sáčků vlastností oddělených prázdnými znaky \n nebo \r\n . Každá taška vlastností se dá rozprostřet na více řádcích. |
ORC | .orc |
Soubor ORC. |
Parquet | .parquet |
Soubor Parquet. |
PSV | .psv |
Textový soubor s hodnotami oddělenými svislým rourou (| ). |
SYROVÝ | .raw |
Textový soubor, jehož celý obsah je jedna řetězcová hodnota. |
SCSv | .scsv |
Textový soubor s hodnotami oddělenými středníkem (; ). |
SOHsv | .sohsv |
Textový soubor s hodnotami oddělenými SOH. (SOH je bod kódu ASCII 1; tento formát používá Hive ve službě HDInsight.) |
TSV | .tsv |
Textový soubor s hodnotami oddělenými tabulátorem (\t ). |
TSVE | .tsv |
Textový soubor s hodnotami oddělenými tabulátorem (\t ). Znak zpětného lomítka (\ ) se používá pro zapouzdření. |
TXT | .txt |
Textový soubor s řádky oddělenými znakem \n . Prázdné čáry se přeskočí. |
W3CLOGFILE | .log |
Formát souboru webového protokolu standardizovaný w3C. |
Poznámka:
Příjem dat ze systémů úložiště dat, které poskytují funkce ACID nad běžnými soubory formátu Parquet (např. Apache Iceberg, Apache Hudi, Delta Lake), se nepodporuje.
Avro bez schématu se nepodporuje.
Další informace o ingestování dat pomocí
json
nebomultijson
formátech najdete v tomto dokumentu.
Podporované formáty komprese dat
Objekty blob a soubory je možné komprimovat pomocí některého z následujících algoritmů komprese:
Komprese | Rozšíření |
---|---|
gzip | .gz |
zip | .zip |
Indikujte kompresi připojením přípony k názvu objektu blob nebo souboru.
Příklad:
MyData.csv.zip
označuje objekt blob nebo soubor formátovaný jako CSV, komprimovaný pomocí souboru ZIP (archiv nebo jeden soubor).MyData.json.gz
označuje objekt blob nebo soubor formátovaný jako JSON komprimovaný pomocí gGzip.
Podporují se také názvy objektů blob nebo souborů, které neobsahují přípony formátu, MyData.zip
ale jenom kompresi (například). V tomto případě musí být formát souboru zadán jako vlastnost pro příjem dat, protože jej nelze odvodit.
Poznámka:
- Některé formáty komprese sledují původní příponu souboru jako součást komprimovaného datového proudu. Toto rozšíření je obecně ignorováno pro určení formátu souboru. Pokud formát souboru nelze určit z (komprimovaného) objektu blob nebo názvu souboru, musí se zadat prostřednictvím vlastnosti příjmu
format
dat. - Nezaměňovat s interním (blokovým) kodekem komprese používaným
Parquet
v aORC
AVRO
formátech. Název interní komprese se obvykle přidává do názvu souboru před příponou formátu souboru, například:file1.gz.parquet
,file1.snappy.avro
atd. - Metoda komprese deflate64/Enhanced Deflate zip není podporována. Upozorňujeme, že u souborů s velikostí větší než 2 GB se může rozhodnout, že integrovanou komprimační kompresor windows použije tuto metodu komprese.
Související obsah
- Další informace o příjmu dat
- Další informace o vlastnostech příjmu dat v Azure Data Exploreru