Комплексная аналитика с помощью Azure Synapse

Azure Synapse Analytics
Azure Cosmos DB
Фабрика данных Azure
Azure Databricks
Центры событий Azure

Решение, описанное в этой статье, сочетает в себе ряд служб Azure, которые будут принимать, хранить, обрабатывать, обогащать и обслуживать данные и аналитические сведения из различных источников (структурированные, частично структурированные, неструктурированные и потоковые).

Архитектура

Схема архитектуры для современной платформы данных с помощью служб данных Azure.

Скачайте файл Visio для этой архитектуры.

Примечание.

  • Службы, охватываемые этой архитектурой, являются лишь подмножеством большого семейства служб Azure. Аналогичные результаты могут быть получены с использованием других служб или функций, не охватываемых этим проектом.
  • Конкретные бизнес-требования для вашего варианта использования аналитики могут включать использование различных служб или функций, которые не рассматриваются в этом проекте.

Поток данных

Варианты использования аналитики, охватываемые архитектурой, иллюстрируются различными источниками данных в левой части диаграммы. Поток данных проходит через решение снизу вверх следующим образом:

Примечание.

В следующих разделах Azure Data Lake используется в качестве дома для данных на различных этапах жизненного цикла данных. Azure Data Lake организовано различными уровнями и контейнерами следующим образом:

  • Необработанный слой — это целевая область для данных, поступающих из исходных систем. Как подразумевает имя, данные в этом слое являются необработанными, нефильтрованными и необработанными.
  • На следующем этапе жизненного цикла данные перемещаются на обогащенный слой, где данные очищаются, фильтруются и, возможно, преобразуются.
  • Затем данные перемещаются на курированный слой, где хранятся данные, готовые к потребителю.

Ознакомьтесь с документацией по зонам озера данных и контейнерам для полной проверки уровней и контейнеров Azure Data Lake и их использования.

Службы данных Azure, облачная HTAP с Azure Cosmos DB и Dataverse

Обработка
  1. Azure Synapse Link для Azure Cosmos DB и Azure Synapse Link для Dataverse позволяют выполнять анализ операционных данных и данных бизнес-приложений практически в режиме реального времени с помощью модулей аналитики, доступных в рабочей области Azure Synapse: бессерверного SQL и пулов Spark.

  2. При использовании Azure Synapse Link для Azure Cosmos DB используйте бессерверный запрос или записную книжку пула Spark. Вы можете получить доступ к аналитическому хранилищу Azure Cosmos DB, а затем объединить наборы данных из практически в реальном времени с данными из озера данных или из хранилища данных.

  3. При использовании Azure Synapse Link для Dataverse воспользуйтесь запросом бессерверного SQL или записной книжкой пула Spark. Вы можете получить доступ к выбранным таблицам Dataverse, а затем объединить данные бизнес-приложений практически в режиме реального времени с данными из озера данных или хранилища данных.

Store (Сохранить)
  1. Результирующие наборы данных, полученные после выполнения запросов бессерверного SQL, могут быть сохранены в озере данных. Если вы используете записные книжки Spark, результирующие наборы данных можно сохранить в озере данных или в хранилище данных (пул SQL).
Server
  1. Загрузите необходимые данные из пула SQL Azure Synapse или озера данных в наборы данных Power BI для визуализации и изучения. Модели Power BI реализуют семантическую модель для упрощения анализа бизнес-данных и связей. Бизнес-аналитики используют отчеты и панели мониторинга Power BI для анализа данных и получения бизнес-аналитики.

  2. С помощью Azure Data Share можно безопасно поделиться данными с другими бизнес-подразделениями или с доверенными внешними партнерами. Потребители данных могут выбрать используемый формат данных и подсистему вычислений, которая лучше всего подходит для обработки общих наборов данных.

  3. Структурированные и неструктурированные данные, хранящиеся в рабочей области Synapse, также можно использовать для создания решений интеллектуального анализа знаний и извлечения ценных аналитических сведений для бизнеса из различных типов документов и файлов различных форматов, в том числе документов Office, файлов PDF, изображений, звуковых файлов, форм и веб-страниц с помощью ИИ.

Реляционные базы данных

Прием
  1. Используйте конвейеры Azure Synapse для извлечения данных из широкого набора баз данных, как локальных, так и в облаке. Конвейеры могут активироваться на основе предварительно определенного расписания, в ответ на событие или вызываться явным образом с помощью REST API.
Store (Сохранить)
  1. В уровне озера необработанных данных упорядочение озера данных следует рекомендациям по созданию слоев, структурам папок, используемым в каждом слое и формату файлов, используемым для каждого сценария аналитики.

  2. Из конвейера Azure Synapse используйте действие копирования данных для этапов данных, скопированных из реляционных баз данных в необработанный слой озера данных Azure Data Lake Store 2-го поколения. Данные можно сохранить в текстовом формате с разделителями или в сжатом виде как файлы Parquet.

Обработка
  1. Используйте потоки данных, бессерверные запросы SQL или записные книжки Spark для проверки, преобразования и перемещения наборов данных из необработанного слоя через обогащенный слой и в слой Curated в озере данных.

    1. В рамках преобразований данных можно вызывать модели машинного обучения из пулов SQL с помощью стандартных записных книжек T-SQL или Spark. Эти модели машинного обучения можно использовать для обогащения наборов данных и формирования дополнительной бизнес-аналитики. Эти модели машинного обучения могут использоваться в Azure Cognitive Services или в виде настраиваемых моделей машинного обучения в Машинном обучении Azure.
Server
  1. Конечный набор данных можно обслуживать непосредственно из слоя curated озера данных или использовать действие копирования данных для приема окончательного набора данных в таблицы пула SQL с помощью команды COPY для быстрого приема данных.

  2. Загрузите необходимые данные из пула SQL Azure Synapse или озера данных в наборы данных Power BI для визуализации данных. Модели Power BI реализуют семантическую модель для упрощения анализа бизнес-данных и связей. Бизнес-аналитики используют отчеты и панели мониторинга Power BI для анализа данных и получения бизнес-аналитики.

  3. С помощью Azure Data Share можно безопасно поделиться данными с другими бизнес-подразделениями или с доверенными внешними партнерами. Потребители данных могут выбрать используемый формат данных и подсистему вычислений, которая лучше всего подходит для обработки общих наборов данных.

  4. Структурированные и неструктурированные данные, хранящиеся в рабочей области Synapse, также можно использовать для создания решений интеллектуального анализа знаний и извлечения ценных аналитических сведений для бизнеса из различных типов документов и файлов различных форматов, в том числе документов Office, файлов PDF, изображений, звуковых файлов, форм и веб-страниц с помощью ИИ.

Источники частично структурированных данных

Прием
  1. Используйте конвейеры Azure Synapse для извлечения данных из широкого набора источников частично структурированных данных, как локальных, так и в облаке. Например:

    • Получите данные из файловых источников, содержащих файлы CSV или JSON.
    • Подключитесь к базам данных No-SQL, таким как Azure Cosmos DB или MongoDB.
    • Вызывайте REST API, предоставляемые приложениями SaaS, которые будут выступать в качестве источника данных для конвейера.
Store (Сохранить)
  1. В уровне озера необработанных данных упорядочение озера данных следует рекомендациям по созданию слоев, структурам папок, используемым в каждом слое и формату файлов, используемым для каждого сценария аналитики.

  2. Из конвейера Azure Synapse используйте действие копирования данных для этапов данных, скопированных из полуструктурированных источников данных, в необработанный слой озера данных Azure Data Lake Store 2-го поколения. Сохраните данные, полученные из источников данных, в исходном формате.

Обработка
  1. Для конвейеров пакетной или микро пакетной службы используйте потоки данных, бессерверные запросы SQL или записные книжки Spark для проверки, преобразования и перемещения наборов данных в управляемый слой в озере данных. Запросы бессерверного SQL предоставляют доступ к базовым файлам CSV, Parquet или JSON в качестве внешних таблиц, чтобы можно было отправлять запросы к этим файлам с помощью T-SQL.

    1. В рамках преобразований данных можно вызывать модели машинного обучения из пулов SQL с помощью стандартных инструкций T-SQL или записных книжек Spark. Эти модели машинного обучения можно использовать для обогащения наборов данных и формирования дополнительной бизнес-аналитики. Эти модели машинного обучения могут использоваться в Azure Cognitive Services или в виде настраиваемых моделей машинного обучения в Машинном обучении Azure.
  2. Для сценариев телеметрии практически в режиме реального времени и анализа временных рядов используйте пулы Data Explorer, позволяющие упростить прием, объединение и сопоставление журналов и данных событий Интернета вещей между несколькими источниками данных. С помощью пулов Data Explorer можно выполнить анализ временных рядов, геопространственную кластеризацию и обогащение машинного обучения с использованием запросов Kusto (KQL).

Server
  1. Конечный набор данных можно обслуживать непосредственно из слоя curated озера данных или использовать действие копирования данных для приема окончательного набора данных в таблицы пула SQL с помощью команды COPY для быстрого приема данных.

  2. Загрузите необходимые данные из пулов SQL Azure Synapse, пулов Data Explorer или озера данных в наборы данных Power BI для визуализации данных. Модели Power BI реализуют семантическую модель для упрощения анализа бизнес-данных и связей. Бизнес-аналитики используют отчеты и панели мониторинга Power BI для анализа данных и получения бизнес-аналитики.

  3. С помощью Azure Data Share можно безопасно поделиться данными с другими бизнес-подразделениями или с доверенными внешними партнерами. Потребители данных могут выбрать используемый формат данных и подсистему вычислений, которая лучше всего подходит для обработки общих наборов данных.

  4. Структурированные и неструктурированные данные, хранящиеся в рабочей области Synapse, также можно использовать для создания решений интеллектуального анализа знаний и извлечения ценных аналитических сведений для бизнеса из различных типов документов и файлов различных форматов, в том числе документов Office, файлов PDF, изображений, звуковых файлов, форм и веб-страниц с помощью ИИ.

Источники неструктурированных данных

Прием
  1. Используйте конвейеры Azure Synapse для извлечения данных из широкого набора источников неструктурированных данных, как локальных, так и в облаке. Например:

    • Получите видео, изображение, звук или произвольный текст из файловых источников, содержащих исходные файлы.
    • Вызывайте REST API, предоставляемые приложениями SaaS, которые будут выступать в качестве источника данных для конвейера.
Store (Сохранить)
  1. В слое необработанных озера данных упорядочение озера данных, следуя рекомендациям по созданию слоев, каким структурам папок следует использовать в каждом слое, а также о том, какие файлы следует использовать для каждого сценария аналитики.

  2. Из конвейера Azure Synapse используйте действие копирования данных для этапов данных, скопированных из неструктурированных источников данных, в необработанный слой озера данных Azure Data Lake Store 2-го поколения. Сохраните данные, полученные из источников данных, в исходном формате.

Обработка
  1. Используйте записные книжки Spark для проверки, преобразования, обогащения и перемещения наборов данных из необработанного слоя через обогащенный слой и в курированный слой в озере данных.

    1. В рамках преобразований данных можно вызывать модели машинного обучения из пулов SQL с помощью стандартных инструкций T-SQL или записных книжек Spark. Эти модели машинного обучения можно использовать для обогащения наборов данных и формирования дополнительной бизнес-аналитики. Эти модели машинного обучения могут использоваться в Azure Cognitive Services или в виде настраиваемых моделей машинного обучения в Машинном обучении Azure.
Server
  1. Конечный набор данных можно обслуживать непосредственно из слоя curated озера данных или использовать действие копирования данных для приема окончательного набора данных в таблицы хранилища данных с помощью команды COPY для быстрого приема данных.

  2. Загрузите необходимые данные из пула SQL Azure Synapse или озера данных в наборы данных Power BI для визуализации данных. Модели Power BI реализуют семантическую модель для упрощения анализа бизнес-данных и связей.

  3. Бизнес-аналитики используют отчеты и панели мониторинга Power BI для анализа данных и получения бизнес-аналитики.

  4. С помощью Azure Data Share можно безопасно поделиться данными с другими бизнес-подразделениями или с доверенными внешними партнерами. Потребители данных могут выбрать используемый формат данных и подсистему вычислений, которая лучше всего подходит для обработки общих наборов данных.

  5. Структурированные и неструктурированные данные, хранящиеся в рабочей области Synapse, также можно использовать для создания решений интеллектуального анализа знаний и извлечения ценных аналитических сведений для бизнеса из различных типов документов и файлов различных форматов, в том числе документов Office, файлов PDF, изображений, звуковых файлов, форм и веб-страниц с помощью ИИ.

Потоковая передача

Прием
  1. Используйте Центры событий Azure или Центры Интернета вещей Azure для приема потоков данных, создаваемых клиентскими приложениями или устройствами Интернета вещей. Затем Центры событий или Центр Интернета вещей будут принимать и сохранять данные потоковой передачи без изменения последовательности полученных событий. После этого потребители смогут подключиться к Центрам событий или конечным точкам Центра Интернета вещей и получить сообщения для последующей обработки.
Store (Сохранить)
  1. В уровне озера необработанных данных упорядочение озера данных следует рекомендациям по созданию слоев, структурам папок, используемым в каждом слое и формату файлов, используемым для каждого сценария аналитики.

  2. Настройте сбор или Центр Интернета вещей конечных точек хранилища центров событий, чтобы сохранить копию событий в необработанном слое озера данных Azure Data Lake Store 2-го поколения. Эта функция реализует "холодный путь" шаблона лямбда-архитектуры и позволяет выполнять анализ исторических данных и тенденций для потоковых данных, сохраненных в озере данных, с помощью бессерверных запросов SQL или записных книжек Spark в соответствии с шаблоном для источников частично структурированных данных, описанных выше.

Обработка
  1. Для получения аналитических сведений в режиме реального времени используйте задание Stream Analytics, чтобы реализовать "горячий путь" шаблона лямбда-архитектуры и получать аналитические сведения для потоковых данных во время передачи. Определите хотя бы один источник входных данных для потока данных, поступающего из Центров событий или Центра интернета вещей, один запрос для обработки потока входных данных и один элемент выходных данных Power BI, в который будут отправляться результаты запроса.

    1. В ходе обработки данных с помощью Stream Analytics можно вызывать модели машинного обучения, чтобы обогатить наборы данных в рамках потока данных и принимать бизнес-решения на основе созданных прогнозов. Эти модели машинного обучения могут использоваться в Azure Cognitive Services или в виде настраиваемых моделей машинного обучения в Машинном обучении Azure.
  2. Используйте другие выходные данные задания Stream Analytics, чтобы отправлять обработанные события в пулы SQL Azure Synapse или пулы Data Explorer для дальнейших вариантов использования аналитики.

  3. Для сценариев телеметрии практически в режиме реального времени и анализа временных рядов используйте пулы Data Explorer, чтобы легко получать события Интернета вещей непосредственно из Центров событий или Центров Интернета вещей. С помощью пулов Data Explorer можно выполнить анализ временных рядов, геопространственную кластеризацию и обогащение машинного обучения с использованием запросов Kusto (KQL).

Server
  1. Затем бизнес-аналитики используют возможности наборов данных Power BI практически в режиме реального времени и панели мониторинга для визуализации быстрого изменения аналитических сведений, создаваемых запросом Stream Analytics.

  2. С помощью Azure Data Share можно безопасно поделиться данными с другими бизнес-подразделениями или с доверенными внешними партнерами. Потребители данных могут выбрать используемый формат данных и подсистему вычислений, которая лучше всего подходит для обработки общих наборов данных.

  3. Структурированные и неструктурированные данные, хранящиеся в рабочей области Synapse, также можно использовать для создания решений интеллектуального анализа знаний и извлечения ценных аналитических сведений для бизнеса из различных типов документов и файлов различных форматов, в том числе документов Office, файлов PDF, изображений, звуковых файлов, форм и веб-страниц с помощью ИИ.

Компоненты

В архитектуре были использованы следующие службы Azure:

Альтернативные варианты

Подробности сценария

В этом примере сценария показано, как использовать Azure Synapse Analytics с обширным семейством служб данных Azure для создания современной платформы данных, которая может использоваться для решения самых распространенных задач, связанных с обработкой данных в организации.

Потенциальные варианты использования

Этот подход также может использоваться для:

  • Создания архитектуры продукта данных, которая включает хранилище данных для структурированных данных и озеро данных для частично структурированных и неструктурированных данных. Вы можете развернуть один продукт данных для централизованных сред или несколько продуктов данных для распределенных сред, таких как Сетка данных. Ознакомьтесь с дополнительными сведениями об управлении данными и целевых зонах данных.
  • Интегрируйте реляционные источники данных с другими неструктурированными наборами данных, используя технологии обработки больших данных.
  • Использования семантического моделирования и мощных средств визуализации для более простого анализа данных.
  • Совместно используйте наборы данных в организации или с доверенными внешними партнерами.
  • Реализуйте решения интеллектуального анализа знаний, чтобы извлечь ценные бизнес-сведения из изображений, файлов PDF, документов и т. д.

Рекомендации

Обнаружение и управление

Управление данными в крупных корпоративных средах часто является сложной задачей. С одной стороны, бизнес-аналитики должны иметь возможность обнаруживать и анализировать ресурсы данных, которые могут помочь им в решении бизнес-задач. С другой стороны, старшие специалисты по данным хотят иметь представление о конфиденциальности и безопасности бизнес-данных.

Microsoft Purview

  1. Используйте Microsoft Purview для обнаружения данных и аналитических сведений о ресурсах данных, классификации данных и конфиденциальности, которая охватывает весь ландшафт данных организации.

  2. Microsoft Purview поможет вам поддерживать бизнес-глоссарий с определенной бизнес-терминологией, необходимой для пользователей, чтобы понять семантику того, какие наборы данных означают и как они предназначены для использования в организации.

  3. Вы можете зарегистрировать все источники данных и упорядочить их в коллекции, которые также выступают в качестве границ безопасности для метаданных.

  4. Настройте регулярные проверки для автоматической классификации и обновления релевантных метаданных о ресурсах данных в организации. Microsoft Purview также может автоматически добавлять сведения о происхождении данных на основе данных из конвейеров Фабрика данных Azure или Azure Synapse.

  5. К ресурсам данных могут автоматически добавляться метки классификации данных и метки конфиденциальности данных на основе предварительно настроенных или пользовательских правил, применяемых во время регулярного сканирования.

  6. Специалисты по управлению данными могут использовать отчеты и аналитические сведения , созданные Microsoft Purview, для контроля над всей ландшафтом данных и защиты организации от любых проблем с безопасностью и конфиденциальностью.

Службы платформы

Чтобы улучшить качество решений Azure, следуйте рекомендациям и указаниям, выраженным в виде пяти критериев качественной архитектуры в разделе Платформа Azure с продуманной архитектурой: оптимизация затрат, эффективность работы, производительность, надежность и безопасность.

Следуя этим рекомендациям, в составе проекта необходимо использовать следующие службы:

  1. Идентификатор Microsoft Entra: службы удостоверений, единый вход и многофакторная проверка подлинности в рабочих нагрузках Azure.
  2. Управление затратами Майкрософт: финансовое управление рабочими нагрузками Azure.
  3. Azure Key Vault: защита учетных данных и управление сертификатами. Например, конвейеры Azure Synapse, пулы Spark Azure Synapse и Машинное обучение Azure могут получать учетные данные и сертификаты из Azure Key Vault и использовать их для безопасного доступа к хранилищам данных.
  4. Azure Monitor: сбор, анализ и работа с данными телеметрии ресурсов Azure для упреждающего выявления проблем и повышения производительности и надежности.
  5. Microsoft Defender для облака: повышение и отслеживание уровня безопасности рабочих нагрузок Azure.
  6. Azure DevOps и GitHub: реализуйте методики DevOps для обеспечения автоматизации и соответствия конвейерам разработки и развертывания рабочей нагрузки для Azure Synapse и Машинного обучения Azure.
  7. Политика Azure: реализуйте организационные стандарты и средства контроля за согласованностью ресурсов, соответствием нормативным требованиям, безопасностью, расходами и управлением.

Рекомендации

Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, которая является набором руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.

Технологии, используемые в этой архитектуре, были выбраны потому, что каждая из них предоставляет необходимые функции для решения наиболее распространенных задач по обработке данных в организации. Эти службы соответствуют требованиям к масштабируемости и доступности, что помогает контролировать затраты. Службы, охватываемые этой архитектурой, являются лишь подмножеством большого семейства служб Azure. Аналогичные результаты могут быть получены с использованием других служб или функций, не охватываемых этим проектом.

Конкретные бизнес-требования для вашего варианта использования аналитики также могут включать использование различных служб или функций, которые не рассматриваются в этом проекте.

Подобную архитектуру также можно реализовать в подготовительных средах, в которых можно разрабатывать и тестировать рабочие нагрузки. Чтобы получить экономичную подготовительную среду, учитывайте конкретные требования к рабочим нагрузкам и возможности каждой службы.

Оптимизация затрат

Оптимизация затрат заключается в поиске способов уменьшения ненужных расходов и повышения эффективности работы. Дополнительные сведения см. в разделе Обзор критерия "Оптимизация затрат".

В общих случаях для оценки затрат используйте калькулятор цен Azure. Идеальная ценовая категория и общие затраты для каждой службы, включенной в архитектуру, зависят от объема обрабатываемых и сохраняемых данных, а также от ожидаемого уровня производительности. Для получения дополнительных сведений о расценках для каждой службы используйте приведенную ниже информацию:

  • Бессерверная архитектура Azure Synapse Analytics позволяет масштабировать уровни вычислений и хранилища независимо друг от друга. Стоимость вычислительных ресурсов определяется на основе использования. По требованию пользователя эти ресурсы могут быть приостановлены или масштабированы. В ресурсах хранилища стоимость взимается за используемые терабайты, что значит, что при получении большего количества данных стоимость увеличится.

  • Стоимость использования Azure Data Lake 2-го поколения определяется на основе объема хранимых данных и количества транзакций чтения и записи данных.

  • Стоимость использования Центров событий Azure и Центров Интернета вещей Azure определяется на основе количества вычислительных ресурсов, необходимых для обработки потоков сообщений.

  • Стоимость использования Azure Machine Learning определяется на основе количества вычислительных ресурсов, используемых для обучения и развертывания моделей машинного обучения.

  • Стоимость использования Cognitive Services определяется на основе числа вызовов к API-интерфейсам службы.

  • Microsoft Purview имеет цену на количество ресурсов данных в каталоге и объем вычислительных ресурсов, необходимых для их сканирования.

  • Стоимость использования Azure Stream Analytics определяется на основе объема вычислительной мощности, необходимой для обработки запросов потока.

  • Существуют различные варианты решения Power BI. С их помощью оно может соответствовать различным требованиям. Power BI Embedded предоставляет опцию на основе Azure для внедрения функций Power BI в ваши приложения. Экземпляр Power BI Embedded включен в образец цены выше.

  • Стоимость Azure Cosmos DB зависит от объема хранилища и вычислительных ресурсов, необходимых базам данных.

Развертывание этого сценария

В этой статье есть репозиторий компаньонов, доступный в GitHub, который показывает, как автоматизировать развертывание служб, описанных в этой архитектуре. Следуйте комплексному руководству по развертыванию Azure Synapse в Azure Analyticse, чтобы развернуть эту архитектуру в подписке. В этом руководстве по развертыванию приведены подробные инструкции и несколько вариантов развертывания.

Соавторы

Эта статья обновляется и поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Автор субъекта:

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Следующие шаги