Продукты данных аналитики в облаке в Azure
Продукты данных — это данные, используемые как продукт и вычисляемые, сохраненные и обслуживаемые службами сохраняемости polyglot, которые могут потребоваться в определенных случаях использования. Процесс создания и обслуживания продукта данных может требовать служб и технологий, которые не включены в основные службы целевой зоны данных. Примером этого будет отчетность с нишевыми требованиями, такими как соответствие требованиям и налоговые отчеты.
Рекомендации по проектированию
Целевая зона данных может обслуживаться несколькими продуктами данных, созданными путем приема данных из одной целевой зоны данных или из нескольких целевых зон данных. Это показано на следующей схеме.
В приведенном выше примере показано следующее:
- Потребление данных внутри зоны:
- Продукт данных B использует данные из продукта данных A и других продуктов данных или данных, существующих в озере данных в пределах собственной целевой зоны.
- Продукты данных C и D используют данные только из собственных целевых зон данных.
- Потребление данных между зонами:
- Продукт данных B также использует данные из продукта данных C и данных в целевой зоне 3 озера данных.
Внимание
В случае потребления данных между зонами, так как продукт данных B создается путем чтения из целевой зоны данных 3, этот доступ для чтения требует утверждения от операций целевой зоны данных и групп операций интеграции целевой зоны данных 3.
Внимание
Продукт данных B использует данные из продуктов данных A и C. Прежде чем это может произойти, продукт данных B должен зарегистрировать потребление продуктов данных с помощью соглашений об обмене данными. Это соглашение о совместном использовании данных должно обновлять происхождение от продукта данных А до продукта данных B и от продукта данных С до продукта данных B.
Группа ресурсов для продукта данных включает все службы, необходимые для создания и обслуживания. Мы можем вызвать эту группу ресурсов приложением данных. Примеры служб, которые могут быть частью приложения данных, включают Функции Azure, приложение Azure Service, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Машинное обучение Azure, База данных SQL Azure, База данных Azure для MySQL и Azure Cosmos DB. Дополнительные сведения см . в примерах приложений данных.
Продукты с данными имеют данные из источников данных READ , которые применили некоторые преобразования данных. Примерами могут быть только что курируемый набор данных или отчет бизнес-аналитики.
Рекомендации по проектированию
Создавайте продукты данных в целевой зоне данных, придерживаясь принципов, которые позволяют масштабироваться с помощью управления данными. В следующих разделах приведены рекомендации по проектированию, которые помогут вам спланировать экосистему приложений данных.
Развертывание нескольких групп ресурсов
Каждое приложение данных — это группа ресурсов. Так как приложения данных являются вычислительными службами, службами сохраняемости polyglot или обоими, они могут потребоваться только в зависимости от определенных вариантов использования. Таким образом, они считаются необязательным компонентом целевой зоны данных. В случае, если вам нужны приложения данных, создайте несколько групп ресурсов по приложению данных, как показано на следующей схеме.
Установка ограничений
Политика Azure управляет конфигурацией служб по умолчанию в целевой зоне данных. Думайте о операционной аналитике как о нескольких группах ресурсов, которые группа продуктов данных может запрашивать из стандартного каталога служб. С помощью Политика Azure можно настроить границу безопасности и обязательный набор компонентов.
Внимание
Чтобы обеспечить согласованность, настройте один Политика Azure для каждого приложения данных.
Использование данных из нескольких мест
Приложения данных управляют, упорядочивают и используют данные из нескольких ресурсов данных и представляют все полученные аналитические сведения. Продукт данных является результатом данных из одного или нескольких приложений данных в целевых зонах данных. При необходимости разрешите приложениям данных получать доступ к данным из нескольких и различных источников.
Масштабирование по мере необходимости
Службы, составляющие приложения данных, являются добавочными развертываниями в целевой зоне данных. Масштабируйте приложения данных по мере необходимости.
Включение обнаружения данных
Автоматически регистрируйте продукты данных в каталоге данных, например Azure Purview , чтобы разрешить сканирование данных.
Определение своих продуктов данных
При планировании целевой зоны данных определите столько продуктов данных (и приложений данных, которые выводят и поддерживают их), чтобы обеспечить архитектуру приложения продукта данных. Соответствие реализации системы управления платформой должно играть большую роль в ваших решениях.
Сосредоточьтесь на том, как ваши приложения данных являются производителями данных и потребителями для других пользователей. Например, предположим, что вы определили набор продуктов данных (A, B, C и D), которые создаются и используются. Вам требуются продукты данных A и D в качестве источников для данных в приложении данных B для продукта данных B. Продукт данных B создается из данных, которые приложение данных B использует из продуктов данных A и D. Приложение данных B выступает в качестве производителя данных, а также создает данные для продукта данных C.
Управление средой приложения данных с помощью инфраструктуры как кода
Управление и инфраструктура как код должны управлять средой приложения данных в экосистеме продуктов данных, как показано на предыдущей схеме.
Публикация моделей данных
Группы продуктов данных должны публиковать свои модели данных в репозитории моделирования.
Установка ожиданий для пользователей продукта данных
Обновите контракты на предоставление общего доступа к данным с помощью соглашений об уровне обслуживания и сертификации для продуктов данных, чтобы обеспечить точные ожидания для потенциальных пользователей продукта данных.
Сбор информации о происхождении данных
Если продукт данных B создается из данных, поступающих из продуктов данных A и D, данные должны быть записаны из A и D в B. Для продукта данных C также следует записать дальнейшую линию происхождения данных, так как она создается с помощью данных из продукта данных B. Обновленная происхождения должна быть записана в приложении происхождения данных перед каждым выпуском продукта данных.
Примечание.
Использование Azure Pipelines позволяет создавать шлюзы утверждения и вызывать функции, которые могут убедиться, что метаданные, происхождение и соглашения об уровне обслуживания регистрируются в правильной службе управления.
Определение архитектуры приложения данных
Необходимо создать подробную архитектуру для каждого продукта данных, который полностью определяет отношение к другим продуктам данных, его зависимостям и требованиям к доступу.
Пример сценария проектирования
Чтобы понять процесс определения архитектуры, изучите следующий пример финансового учреждения и его продукта данных мониторинга кредитов.
Продукт данных мониторинга кредитов, показанный на этой схеме, использует данные из хранилища данных чтения, которое принимает команда операций интеграции. Он создает продукты данных, которые также используются двумя другими продуктами данных.
Примечание.
Источник данных для чтения или хранилище также называется золотым источником записей. Эти источники данных были очищены, но не были применены к ним преобразования.
Команда разработчиков продуктов по обработке кредитных данных запрашивает доступ на чтение хранилищ данных, необходимых для создания продукта данных. Их запросы направляются владельцам данных для утверждения. Получив утверждение, команда разработчиков может начать создание приложения данных.
Данные из источника данных чтения преобразуются в продукты данных мониторинга кредитов. Все новые продукты данных хранятся в курированном слое озера данных. Эти новые продукты данных и новая линия данных должны быть зарегистрированы в рамках процесса развертывания DevOps. Функция может проверка зарегистрированные метаданные с физической структурой ресурса данных. Он должен зарегистрировать зависимость от ресурсов и продуктов данных для чтения источников данных.
Команда по утверждению кредита имеет зависимость от некоторых продуктов данных мониторинга кредитов. Они могут запрашивать доступ на чтение к продуктам данных мониторинга кредитов, которые они требуют для своих продуктов данных. После выпуска продукта утверждения кредита и его приложения данных все ресурсы продукта данных, происхождения и модели должны быть зарегистрированы в соответствующих службах управления.
Примеры приложений данных
В следующих разделах содержатся примеры приложений данных для дальнейшего иллюстрации сценариев приложения данных.
Аналитика данных и приложение для обработки и анализа данных
Приложение для аналитики данных и обработки и анализа данных может содержать службы, показанные в примере приложения product-analytics-rg
данных.
Примечание.
В качестве шаблона можно использовать предыдущее приложение данных. Этот шаблон развертывает набор служб, которые можно использовать для анализа данных и обработки и анализа данных. Этот шаблон приложения продукта данных можно использовать для быстрого создания сред для кроссфункционных команд. Необходимо явно отключить все службы, которые не требуются.
Шаблон Аналитики данных содержит все шаблоны для развертывания продукта данных для аналитики и обработки и анализа данных в целевой зоне данных в облачной аналитике.
Артефакты развертывания и кода включают следующие службы:
- Машинное обучение
- Хранилище ключей
- Application Insights
- Память
- Реестр контейнеров
- Cognitive Services (необязательно)
- Фабрика данных (выбор между фабрикой данных и Synapse)
- Рабочая область Synapse (выбор между фабрикой данных и Synapse)
- Поиск Azure (необязательно)
- Пул SQL (необязательно)
- Пул BigData (необязательно)
Приложение пакетных данных
Шаблон приложения пакетных данных содержит все шаблоны для развертывания продукта данных для пакетной обработки данных в целевой зоне данных в облачной аналитике.
Артефакты развертывания и кода включают следующие службы:
- Хранилище ключей
- Фабрика данных (выбор между фабрикой данных и Synapse)
- Azure Cosmos DB (необязательно)
- Рабочая область Synapse (выбор между фабрикой данных и Synapse)
- My База данных SQL (необязательно)
- База данных SQL Azure (необязательно)
- Postgre База данных SQL (необязательно)
- База данных MariaDB (необязательно)
- Пул SQL (необязательно)
- SQL Server (необязательно)
- Эластичные пулы SQL (необязательно)
- Пул BigData
Приложение потоковых данных
Шаблон приложения потоковых данных содержит все шаблоны для развертывания продукта данных в режиме реального времени для обработки данных в целевой зоне данных в масштабе облака.
Артефакты развертывания и кода включают следующие службы:
- Хранилище ключей
- Центры событий
- Центр IoT
- Stream Analytics (необязательно)
- Azure Cosmos DB (необязательно)
- Рабочая область Synapse
- База данных SQL Azure (необязательно)
- Пул SQL (необязательно)
- SQL Server (необязательно)
- Эластичные пулы SQL (необязательно)
- Пул BigData
- Обозреватель данных (необязательно)
Чтобы найти репозитории, содержащие ранее упоминание шаблоны развертывания, см. шаблоны развертывания для облачной аналитики