Что такое озеро данных

Статья
08/15/2024

Data Lake — это репозиторий для хранения, который может вмещать большой объем данных в собственном необработанном формате. Хранилища озера данных оптимизированы для масштабирования их размера до терабайтов и петабайт данных. Данные обычно приходят из нескольких различных источников и могут включать структурированные, полуструктурированные или неструктурированные данные. Озеро данных помогает хранить все в исходном, нетрансформованном состоянии. Этот метод отличается от традиционного хранилища данных, который преобразует и обрабатывает данные во время приема.

Схема, показывающая различные варианты использования озера данных.

К ключевым вариантам использования озера данных относятся:

Перемещение данных в облако и Интернет вещей (IoT).
Обработка больших данных.
Аналитика.
Отчеты.
Перемещение локальных данных.

Рассмотрим следующие преимущества озера данных:

Озеро данных никогда не удаляет данные, так как сохраняет данные в необработанном формате. Эта функция особенно полезна в среде больших данных, так как вы можете заранее не знать, какие аналитические сведения можно получить из данных.
Пользователи могут просматривать данные и создавать собственные запросы.
Озеро данных может быть быстрее, чем традиционные средства извлечения, преобразования, загрузки (ETL).
Озеро данных является более гибким, чем хранилище данных, так как оно может хранить неструктурированные и частично структурированные данные.

Полное решение Data Lake состоит из компонентов хранения и обработки данных. Хранилище озера данных предназначено для отказоустойчивости, бесконечной масштабируемости и приема различных фигур и размеров данных с высокой пропускной способностью. Обработка озера данных включает в себя один или несколько обработчиков обработки, которые могут включать эти цели и могут работать с данными, хранящимися в озере данных в масштабе.

Когда следует использовать озеро данных

Мы рекомендуем использовать озеро данных для изучения данных, аналитики данных и машинного обучения.

Озеро данных может выступать в качестве источника данных для хранилища данных. При использовании этого метода озеро данных получает необработанные данные, а затем преобразует его в структурированный формат, доступный для запросов. Как правило, это преобразование использует конвейер извлечения, загрузки, преобразования (ELT), в котором данные получаются и преобразуются на месте. Реляционные исходные данные могут перейти непосредственно в хранилище данных через процесс ETL и пропустить озеро данных.

Хранилища озера данных можно использовать в сценариях потоковой передачи событий или Интернета вещей, так как озера данных могут сохранять большие объемы реляционных и нереляционных данных без преобразования или определения схемы. Озера данных могут обрабатывать большие объемы небольших операций записи с низкой задержкой и оптимизированы для массовой пропускной способности.

В следующей таблице сравниваются озера данных и хранилища данных.

Таблица, которая сравнивает функции озера данных с функциями хранилища данных.

Сложности

Большие объемы данных: управление большими объемами необработанных и неструктурированных данных может быть сложным и ресурсоемким, поэтому требуется надежная инфраструктура и средства.
Потенциальные узкие места: обработка данных может привести к задержкам и неэффективности, особенно при наличии большого объема данных и различных типов данных.
Риски повреждения данных: неправильное проверка и мониторинг данных приводит к риску повреждения данных, что может скомпрометирует целостность озера данных.
Проблемы контроля качества: надлежащее качество данных является проблемой из-за различных источников данных и форматов. Необходимо реализовать строгие методики управления данными.
Проблемы с производительностью: производительность запросов может снизиться по мере роста озера данных, поэтому необходимо оптимизировать стратегии хранения и обработки.

Выбор технологий

При создании комплексного решения озера данных в Azure рассмотрите следующие технологии:

Azure Data Lake Storage объединяет Хранилище BLOB-объектов Azure с возможностями озера данных, которые обеспечивают доступ, совместимый с Apache Hadoop, иерархические возможности пространства имен и улучшенную безопасность для эффективной аналитики больших данных.
Azure Databricks — это единая платформа, которую можно использовать для обработки, хранения, анализа и монетизации данных. Она поддерживает процессы ETL, панели мониторинга, безопасность, исследование данных, машинное обучение и генерированный ИИ.
Azure Synapse Analytics — это единая служба, которую можно использовать для приема, изучения, подготовки, администрирования и обслуживания данных для немедленных потребностей бизнес-аналитики и машинного обучения. Она интегрируется глубоко с озерами данных Azure, чтобы эффективно запрашивать и анализировать большие наборы данных.
Фабрика данных Azure — это облачная служба интеграции данных, которую можно использовать для создания рабочих процессов, управляемых данными, для оркестрации и автоматизации перемещения и преобразования данных.
Microsoft Fabric — это комплексная платформа данных, которая объединяет инженерию данных, обработку и хранение данных, аналитику в режиме реального времени и бизнес-аналитику в одном решении.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Автор субъекта:

Avijit Prasad | Консультант по облачным технологиям

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Поделиться через

Что такое озеро данных

Когда следует использовать озеро данных

Сложности

Выбор технологий

Соавторы

Следующие шаги

Обратная связь

Дополнительные ресурсы

Поделиться через

Что такое озеро данных

Когда следует использовать озеро данных

Сложности

Выбор технологий

Соавторы

Следующие шаги

Связанные ресурсы

Обратная связь

Дополнительные ресурсы