Что такое озеро данных

Data Lake — это репозиторий для хранения, который может вмещать большой объем данных в собственном необработанном формате. Хранилища озера данных оптимизированы для масштабирования их размера до терабайтов и петабайт данных. Данные обычно приходят из нескольких различных источников и могут включать структурированные, полуструктурированные или неструктурированные данные. Озеро данных помогает хранить все в исходном, нетрансформованном состоянии. Этот метод отличается от традиционного хранилища данных, который преобразует и обрабатывает данные во время приема.

Схема, показывающая различные варианты использования озера данных.

К ключевым вариантам использования озера данных относятся:

  • Перемещение данных в облако и Интернет вещей (IoT).
  • Обработка больших данных.
  • Аналитика.
  • Отчеты.
  • Перемещение локальных данных.

Рассмотрим следующие преимущества озера данных:

  • Озеро данных никогда не удаляет данные, так как сохраняет данные в необработанном формате. Эта функция особенно полезна в среде больших данных, так как вы можете заранее не знать, какие аналитические сведения можно получить из данных.

  • Пользователи могут просматривать данные и создавать собственные запросы.

  • Озеро данных может быть быстрее, чем традиционные средства извлечения, преобразования, загрузки (ETL).

  • Озеро данных является более гибким, чем хранилище данных, так как оно может хранить неструктурированные и частично структурированные данные.

Полное решение Data Lake состоит из компонентов хранения и обработки данных. Хранилище озера данных предназначено для отказоустойчивости, бесконечной масштабируемости и приема различных фигур и размеров данных с высокой пропускной способностью. Обработка озера данных включает в себя один или несколько обработчиков обработки, которые могут включать эти цели и могут работать с данными, хранящимися в озере данных в масштабе.

Когда следует использовать озеро данных

Мы рекомендуем использовать озеро данных для изучения данных, аналитики данных и машинного обучения.

Озеро данных может выступать в качестве источника данных для хранилища данных. При использовании этого метода озеро данных получает необработанные данные, а затем преобразует его в структурированный формат, доступный для запросов. Как правило, это преобразование использует конвейер извлечения, загрузки, преобразования (ELT), в котором данные получаются и преобразуются на месте. Реляционные исходные данные могут перейти непосредственно в хранилище данных через процесс ETL и пропустить озеро данных.

Хранилища озера данных можно использовать в сценариях потоковой передачи событий или Интернета вещей, так как озера данных могут сохранять большие объемы реляционных и нереляционных данных без преобразования или определения схемы. Озера данных могут обрабатывать большие объемы небольших операций записи с низкой задержкой и оптимизированы для массовой пропускной способности.

В следующей таблице сравниваются озера данных и хранилища данных.

Таблица, которая сравнивает функции озера данных с функциями хранилища данных.

Сложности

  • Большие объемы данных: управление большими объемами необработанных и неструктурированных данных может быть сложным и ресурсоемким, поэтому требуется надежная инфраструктура и средства.

  • Потенциальные узкие места: обработка данных может привести к задержкам и неэффективности, особенно при наличии большого объема данных и различных типов данных.

  • Риски повреждения данных: неправильное проверка и мониторинг данных приводит к риску повреждения данных, что может скомпрометирует целостность озера данных.

  • Проблемы контроля качества: надлежащее качество данных является проблемой из-за различных источников данных и форматов. Необходимо реализовать строгие методики управления данными.

  • Проблемы с производительностью: производительность запросов может снизиться по мере роста озера данных, поэтому необходимо оптимизировать стратегии хранения и обработки.

Выбор технологий

При создании комплексного решения озера данных в Azure рассмотрите следующие технологии:

  • Azure Data Lake Storage объединяет Хранилище BLOB-объектов Azure с возможностями озера данных, которые обеспечивают доступ, совместимый с Apache Hadoop, иерархические возможности пространства имен и улучшенную безопасность для эффективной аналитики больших данных.

  • Azure Databricks — это единая платформа, которую можно использовать для обработки, хранения, анализа и монетизации данных. Она поддерживает процессы ETL, панели мониторинга, безопасность, исследование данных, машинное обучение и генерированный ИИ.

  • Azure Synapse Analytics — это единая служба, которую можно использовать для приема, изучения, подготовки, администрирования и обслуживания данных для немедленных потребностей бизнес-аналитики и машинного обучения. Она интегрируется глубоко с озерами данных Azure, чтобы эффективно запрашивать и анализировать большие наборы данных.

  • Фабрика данных Azure — это облачная служба интеграции данных, которую можно использовать для создания рабочих процессов, управляемых данными, для оркестрации и автоматизации перемещения и преобразования данных.

  • Microsoft Fabric — это комплексная платформа данных, которая объединяет инженерию данных, обработку и хранение данных, аналитику в режиме реального времени и бизнес-аналитику в одном решении.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Автор субъекта:

  • Avijit Prasad | Консультант по облачным технологиям

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Следующие шаги