Форматы данных, поддерживаемые в Azure Data Explorer для приема
Приемом данных называется процесс, при котором данные добавляются в таблицу и становятся доступными для запросов в Azure Data Explorer. Для всех методов приема, кроме приема по запросу, данные необходимо преобразовать в один из поддерживаемых форматов. В следующей таблице перечислены и описаны форматы, которые служба Azure Data Explorer поддерживает для приема данных.
Примечание.
Перед приемом данных убедитесь, что данные правильно отформатированы и определяют ожидаемые поля. Для подтверждения допустимости формата рекомендуется использовать предпочтительный проверяющий элемент управления. Например, следующие проверяющие элементы управления могут пригодиться для проверки файлов CSV или JSON:
- CSV: http://csvlint.io/
- JSON: https://jsonlint.com/
Дополнительные сведения о том, почему может произойти сбой приема, см. в разделе Сбои приема и Коды ошибок приема в Azure Data Explorer.
Формат | Расширение | Description |
---|---|---|
ApacheAvro | .avro |
Формат AVRO с поддержкой логических типов. Сейчас поддерживаются перечисленные ниже кодеки: null , deflate и snappy . Реализация модуля чтения в формате apacheavro основана на официальной библиотеке Apache Avro. Дополнительные сведения о приеме файлов Avro в Центрах событий см. в разделе "Прием файлов Avro центров событий". |
Avro | .avro |
Устаревшая реализация для формата AVRO на основе библиотеки .NET. Сейчас поддерживаются перечисленные ниже кодеки: null , deflate (для snappy — используйте формат данных ApacheAvro ). |
CSV | .csv |
Текстовый файл, содержащий значения с разделителями-запятыми (, ). См. RFC 4180: Общий формат и тип MIME для файлов в формате значений, разделенных запятой (CSV). |
JSON | .json |
Текстовый файл с объектами JSON, разделенными символами \n или \r\n . См. описание JSON Lines (JSONL). |
MultiJSON | .multijson |
Текстовый файл с массивом JSON, содержащим контейнеры свойств (каждый из которых представляет запись), или любым количеством контейнеров свойств, разделенных пробелами (\n или \r\n ). Каждый контейнер свойств может распределяться по нескольким строкам |
ORC | .orc |
Файл ORC. |
Parquet | .parquet |
Файл Parquet. |
PSV | .psv |
Текстовый файл, содержащий значения, разделенные символами вертикальной черты (| ). |
НЕОБРАБОТАННЫЕ | .raw |
Текстовый файл, все содержимое которого является одним строковым значением. |
SCsv | .scsv |
Текстовый файл, содержащий значения, разделенные символами точки с запятой (; ). |
SOHsv | .sohsv |
Текстовый файл, содержащий значения, разделенные символами начала заголовка. (Символ начала заголовка является кодовой точкой ASCII 1; этот формат используется для Hive в HDInsight.) |
TSV | .tsv |
Текстовый файл, содержащий значения, разделенные символами табуляции (\t ). |
TSVE | .tsv |
Текстовый файл, содержащий значения, разделенные символами табуляции (\t ). Для экранирования используется символ обратной косой черты (\ ). |
TXT | .txt |
Текстовый файл, строки в котором разделены символами \n . Пустые строки пропускаются. |
W3CLOGFILE | .log |
Формат файла веб-журнала, стандартизированный W3C. |
Примечание.
Прием из систем хранения данных, предоставляющих функции ACID, помимо обычных файлов форматирования Parquet (например, Apache Iceberg, Apache Hudi, Delta Lake), не поддерживается.
Avro без схемы не поддерживается.
Дополнительные сведения о приеме данных с помощью
json
илиmultijson
форматах см. в этом документе.
Поддерживаемые форматы сжатия данных
BLOB-объекты и файлы можно при желании сжать с помощью любого из следующих алгоритмов:
Сжатие | Расширение |
---|---|
gzip | .gz |
zip | .zip |
Укажите сжатие, добавив расширение в имя BLOB-объекта или файла.
Например:
MyData.csv.zip
указывает большой двоичный объект или файл, форматированный как CSV, сжатый с zip-файлом (архив или один файл)MyData.json.gz
указывает большой двоичный объект или файл в формате JSON, сжатый с помощью gGzip.
Также поддерживаются имена BLOB-объектов или файлов, которые не включают расширение формата, а только указывают на сжатие (например, MyData.zip
). В этом случае формат файла нужно указать как свойство приема, так как его нельзя определить.
Примечание.
- Некоторые форматы сжатия сохраняют исходное расширение файла в потоке сжатых данных. Эти сведения о расширении обычно игнорируются при определении формата файла. Если формат файла нельзя определить по имени сжатого большого двоичного объекта или файла, его нужно указать в свойстве приема
format
. - Не следует путать с внутренним кодеком сжатия (на уровне блоков), который используется в форматах
Parquet
,AVRO
иORC
. Внутреннее имя сжатия обычно добавляется к имени файла перед расширением формата файла, например:file1.gz.parquet
,file1.snappy.avro
и т. д. - Метод сжатия ZIP-сжатия deflate64/Enhanced Deflate не поддерживается. Обратите внимание, что встроенный zip-компрессор Windows может использовать этот метод сжатия для файлов размером более 2 ГБ.
Связанный контент
- Узнайте дополнительные сведения о приеме данных
- Узнайте больше о свойствах приема данных в Azure Data Explorer