Терминология Azure Synapse Analytics

В этом документе описаны основные понятия Azure Synapse Analytics.

Рабочая область Synapse

Рабочая область Synapse — это защищаемая ограниченная область совместной работы для выполнения облачной корпоративной аналитики в Azure. Рабочая область развертывается в определенном регионе и с ней сопоставляются учетная запись и файловая система ADLS 2-го поколения (для хранения временных данных). Рабочая область принадлежит к группе ресурсов.

Рабочая область позволяет выполнять анализ с помощью SQL и Apache Spark. Ресурсы, доступные для анализа SQL и Spark, организованы в пулы SQL и Spark.

Связанные службы

Рабочая область может содержать любое количество связанных служб, в основном строки подключения, определяющие сведения о подключении, необходимые для подключения рабочей области к внешним ресурсам.

Synapse SQL

Synapse SQL позволяет выполнять анализ на основе T-SQL в рабочей области Synapse. Есть две модели потребления Synapse SQL: выделенная и бессерверная. Для выделенной модели используйте выделенные пулы SQL. В рабочей области может быть любое количество таких пулов. Для бессерверной модели используйте бессерверные пулы SQL. В каждой рабочей области есть один такой пул.

В Synapse Studio можно работать с пулами SQL, запуская скрипты SQL.

Примечание

Выделенные пулы SQL в Azure Synapse отличаются от выделенного пула SQL (ранее — хранилище данных SQL). Не все функции выделенного пула SQL в рабочих областях Azure Synapse применяются к выделенному пулу SQL (ранее — хранилище данных SQL), и наоборот. Сведения о том, как использовать функции рабочей области из существующего выделенного пула SQL (ранее — хранилище данных SQL), см. здесь.

Apache Spark для Synapse

Для анализа Spark создайте и используйте бессерверные пулы Apache Spark в рабочей области Synapse. Когда вы начинаете использовать пул Spark, рабочие области создают сеанс Spark для управления связанными с ним ресурсами.

Есть два способа использования Spark в Synapse:

  • Записные книжки Spark для обработки и анализа данных и инжиниринга используют Scala, PySpark, C# и SparkSQL
  • определения заданий Spark для выполнения пакетных заданий Spark с использованием JAR-файлов.

SynapseML

SynapseML (прежнее название — MMLSpark) — это библиотека с открытым кодом, которая упрощает создание конвейеров машинного обучения с активным масштабированием. Это экосистема инструментов, расширяющих платформу Apache Spark в нескольких новых направлениях. SynapseML объединяет ряд существующих платформ машинного обучения и новых алгоритмов Майкрософт в единый масштабируемый API, доступный в Python, R, Scala, .NET и Java. Дополнительные сведения см. в описании основных функций SynapseML.

Pipelines

Pipelines — это средство, с помощью которого Azure Synapse обеспечивает интеграцию данных, позволяя перемещать данные между службами, а также оркестровать действия.

  • Конвейер. Логическая группа действий, которые вместе позволяют выполнить задачу.
  • Действия. Определяет действия, выполняемые с данными в конвейере, например копирование данных, запуск Notebook или скрипта SQL.
  • Потоки данных. Определенные типы действий, при которых предоставляется интерфейс без написания кода для преобразования данных, когда также используется Synapse Spark.
  • Триггер. Выполняет конвейер. Может запускаться вручную или автоматически (по расписанию, с помощью "переворачивающегося" окна или на основе событий)
  • Набор данных интеграции. Именованное представление данных, которое указывает данные для использования в действии, разделяя их на входные и выходные. Принадлежит связанной службе.

Data Explorer (предварительная версия)

Azure Synapse Data Explorer предоставляет клиентам интерактивный интерфейс для извлечения ценной информации из данных журнала и телеметрии.

  • Пулы Data Explorer. Выделенные кластеры, которые включают в себя не менее двух вычислительных узлов с локальным хранилищем SSD (горячий кэш) для оптимизации производительности запросов и хранилищем для нескольких BLOB-объектов (холодный кэш) для обеспечения сохраняемости.
  • Базы данных Data Explorer. Размещаются в пулах Data Explorer и являются логическими сущностями, состоящими из коллекций таблиц и других объектов базы данных. На один пул может быть приходиться несколько баз данных.
  • Таблицы. Объекты базы данных, содержащие данные, упорядоченные с использованием традиционной реляционной модели данных. Данные хранятся в записях, которые соответствуют строго определенной схеме таблицы Data Explorer, определяющей упорядоченный список столбцов, каждый из которых имеет имя и скалярный тип данных. Скалярные типы данных могут быть структурированными (int, real, datetime или timespan) или частично структурированными (dynamic) либо представлять собой произвольный текст (string). Динамический тип похож на JSON тем, что он может содержать одно скалярное значение, массив или словарь таких значений.
  • Внешние таблицы. Таблицы, которые ссылаются на хранилище или источник данных SQL за пределами базы данных Data Explorer. Как и в случае с таблицами, внешняя таблица имеет четко определенную схему (упорядоченный список пар имен столбцов и типов данных). В отличие от таблиц SQL, в которых данные поступают в пул Data Explorer, внешние таблицы работают с данными, хранящимися и управляемыми за пределами пулов. Внешние таблицы не сохраняют данные и используются для запроса или экспорта данных во внешнее хранилище данных.

Дальнейшие действия