Форматы данных, поддерживаемые в Azure Data Explorer для приема

Статья
10/31/2024

Приемом данных называется процесс, при котором данные добавляются в таблицу и становятся доступными для запросов в Azure Data Explorer. Для всех методов приема, кроме приема по запросу, данные необходимо преобразовать в один из поддерживаемых форматов. В следующей таблице перечислены и описаны форматы, которые служба Azure Data Explorer поддерживает для приема данных.

Примечание.

Перед приемом данных убедитесь, что данные правильно отформатированы и определяют ожидаемые поля. Для подтверждения допустимости формата рекомендуется использовать предпочтительный проверяющий элемент управления. Например, следующие проверяющие элементы управления могут пригодиться для проверки файлов CSV или JSON:

CSV: http://csvlint.io/
JSON: https://jsonlint.com/

Дополнительные сведения о том, почему может произойти сбой приема, см. в разделе Сбои приема и Коды ошибок приема в Azure Data Explorer.

Формат	Расширение	Description
ApacheAvro	`.avro`	Формат AVRO с поддержкой логических типов. Сейчас поддерживаются перечисленные ниже кодеки: `null`, `deflate` и `snappy`. Реализация модуля чтения в формате `apacheavro` основана на официальной библиотеке Apache Avro. Дополнительные сведения о приеме файлов Avro в Центрах событий см. в разделе "Прием файлов Avro центров событий".
Avro	`.avro`	Устаревшая реализация для формата AVRO на основе библиотеки .NET. Сейчас поддерживаются перечисленные ниже кодеки: `null`, `deflate` (для `snappy` — используйте формат данных `ApacheAvro`).
CSV	`.csv`	Текстовый файл, содержащий значения с разделителями-запятыми (`,`). См. RFC 4180: Общий формат и тип MIME для файлов в формате значений, разделенных запятой (CSV).
JSON	`.json`	Текстовый файл с объектами JSON, разделенными символами `\n` или `\r\n`. См. описание JSON Lines (JSONL).
MultiJSON	`.multijson`	Текстовый файл с массивом JSON, содержащим контейнеры свойств (каждый из которых представляет запись), или любым количеством контейнеров свойств, разделенных пробелами (`\n` или `\r\n`). Каждый контейнер свойств может распределяться по нескольким строкам
ORC	`.orc`	Файл ORC.
Parquet	`.parquet`	Файл Parquet.
PSV	`.psv`	Текстовый файл, содержащий значения, разделенные символами вертикальной черты (`\|`).
НЕОБРАБОТАННЫЕ	`.raw`	Текстовый файл, все содержимое которого является одним строковым значением.
SCsv	`.scsv`	Текстовый файл, содержащий значения, разделенные символами точки с запятой (`;`).
SOHsv	`.sohsv`	Текстовый файл, содержащий значения, разделенные символами начала заголовка. (Символ начала заголовка является кодовой точкой ASCII 1; этот формат используется для Hive в HDInsight.)
TSV	`.tsv`	Текстовый файл, содержащий значения, разделенные символами табуляции (`\t`).
TSVE	`.tsv`	Текстовый файл, содержащий значения, разделенные символами табуляции (`\t`). Для экранирования используется символ обратной косой черты (`\`).
TXT	`.txt`	Текстовый файл, строки в котором разделены символами `\n`. Пустые строки пропускаются.
W3CLOGFILE	`.log`	Формат файла веб-журнала, стандартизированный W3C.

Примечание.

Прием из систем хранения данных, предоставляющих функции ACID, помимо обычных файлов форматирования Parquet (например, Apache Iceberg, Apache Hudi, Delta Lake), не поддерживается.
Avro без схемы не поддерживается.
Дополнительные сведения о приеме данных с помощью json или multijson форматах см. в этом документе.

Поддерживаемые форматы сжатия данных

BLOB-объекты и файлы можно при желании сжать с помощью любого из следующих алгоритмов:

Сжатие	Расширение
gzip	.gz
zip	.zip

Укажите сжатие, добавив расширение в имя BLOB-объекта или файла.

Например:

MyData.csv.zip указывает большой двоичный объект или файл, форматированный как CSV, сжатый с zip-файлом (архив или один файл)
MyData.json.gz указывает большой двоичный объект или файл в формате JSON, сжатый с помощью gGzip.

Также поддерживаются имена BLOB-объектов или файлов, которые не включают расширение формата, а только указывают на сжатие (например, MyData.zip). В этом случае формат файла нужно указать как свойство приема, так как его нельзя определить.

Примечание.

Некоторые форматы сжатия сохраняют исходное расширение файла в потоке сжатых данных. Эти сведения о расширении обычно игнорируются при определении формата файла. Если формат файла нельзя определить по имени сжатого большого двоичного объекта или файла, его нужно указать в свойстве приема format.
Не следует путать с внутренним кодеком сжатия (на уровне блоков), который используется в форматах Parquet, AVRO и ORC. Внутреннее имя сжатия обычно добавляется к имени файла перед расширением формата файла, например: file1.gz.parquet, file1.snappy.avro и т. д.
Метод сжатия ZIP-сжатия deflate64/Enhanced Deflate не поддерживается. Обратите внимание, что встроенный zip-компрессор Windows может использовать этот метод сжатия для файлов размером более 2 ГБ.

Узнайте дополнительные сведения о приеме данных
Узнайте больше о свойствах приема данных в Azure Data Explorer

Поделиться через

Форматы данных, поддерживаемые в Azure Data Explorer для приема

Поддерживаемые форматы сжатия данных

Обратная связь

Дополнительные ресурсы

Поделиться через

Форматы данных, поддерживаемые в Azure Data Explorer для приема

Поддерживаемые форматы сжатия данных

Связанный контент

Обратная связь

Дополнительные ресурсы