Что такое Azure Databricks?
Azure Databricks — это единая, открытая платформа аналитики для создания, развертывания, совместного использования и обслуживания корпоративных данных, аналитики и решений искусственного интеллекта в масштабе. Платформа аналитики данных Databricks интегрируется с облачным хранилищем и безопасностью в облачной учетной записи, а также управляет и развертывает облачную инфраструктуру от вашего имени.
Как работает платформа аналитики данных?
Azure Databricks использует генерированный ИИ с помощью озера данных для понимания уникальной семантики данных. Затем она автоматически оптимизирует производительность и управляет инфраструктурой в соответствии с потребностями бизнеса.
Обработка естественного языка учит язык вашего бизнеса, поэтому вы можете искать и обнаруживать данные, задавая вопрос в собственных словах. Помощь по естественному языку помогает писать код, устранять ошибки и находить ответы в документации.
Наконец, ваши приложения и данные и ИИ могут полагаться на надежное управление и безопасность. Вы можете интегрировать ТАКИЕ API, как OpenAI, без ущерба для конфиденциальности данных и управления IP-адресами.
Для чего используется Azure Databricks?
Azure Databricks предоставляет средства, которые помогают подключать источники данных к одной платформе для обработки, хранения, совместного использования, анализа, моделирования и монетизации наборов данных с помощью решений бизнес-аналитики для создания искусственного интеллекта.
Рабочая область Azure Databricks предоставляет единый интерфейс и средства для большинства задач данных, в том числе:
- Планирование обработки данных и управление ими, в частности ETL
- Создание панелей мониторинга и визуализаций
- Управление безопасностью, управлением, высоким уровнем доступности и аварийным восстановлением
- Обнаружение данных, заметка и исследование
- Моделирование, отслеживание и обслуживание моделей машинного обучения
- Решения для создания искусственного интеллекта
Управляемая интеграция с открытый код
Databricks имеет сильную приверженность открытый код сообщества. Databricks управляет обновлениями интеграции открытый код в выпусках Databricks Runtime. Следующие технологии являются открытый код проектами, первоначально созданными сотрудниками Databricks:
Средства и программный доступ
Azure Databricks поддерживает ряд собственных средств, которые интегрируют и расширяют эти технологии, чтобы добавить оптимизированную производительность и простоту использования, например следующие:
Помимо пользовательского интерфейса рабочей области, вы можете взаимодействовать с Azure Databricks программными средствами:
- REST API
- CLI
- Terraform
Как Azure Databricks работает с Azure?
Архитектура платформы Azure Databricks состоит из двух основных частей:
- Инфраструктура, используемая Azure Databricks для развертывания, настройки и управления платформой и службами.
- Инфраструктура, принадлежащей клиенту, управляемая в совместной работе Azure Databricks и вашей компании.
В отличие от многих корпоративных компаний, Azure Databricks не заставляет вас переносить данные в собственные системы хранения для использования платформы. Вместо этого вы настраиваете рабочую область Azure Databricks, настраивая безопасные интеграции между платформой Azure Databricks и облачной учетной записью, а затем Azure Databricks развертывает вычислительные кластеры с помощью облачных ресурсов в учетной записи для обработки и хранения данных в хранилище объектов и других интегрированных службах, которые вы контролируете.
Каталог Unity расширяет эту связь, позволяя управлять разрешениями для доступа к данным с помощью знакомого синтаксиса SQL из Azure Databricks.
Рабочие области Azure Databricks соответствуют требованиям к безопасности и сети некоторых крупнейших и наиболее защищенных компаний в мире. Azure Databricks упрощает работу новых пользователей на платформе. Он удаляет множество проблем и проблем, связанных с облачной инфраструктурой, без ограничения настроек и контроля опытных данных, операций и команд безопасности.
Каковы распространенные варианты использования Azure Databricks?
Варианты использования в Azure Databricks отличаются так же, как данные, обработанные на платформе, и многие сотрудники, которые работают с данными в качестве основной части своей работы. В следующих случаях использования описано, как пользователи в вашей организации могут использовать Azure Databricks для выполнения задач, необходимых для обработки, хранения и анализа данных, которые используют критически важные бизнес-функции и решения.
Создание корпоративного озера данных
Data lakehouse объединяет сильные стороны корпоративных хранилищ данных и озер данных для ускорения, упрощения и объединения корпоративных решений данных. Инженеры данных, специалисты по обработке и анализу данных, аналитики и производственные системы могут использовать озера данных в качестве одного источника истины, что позволяет своевременно получать доступ к согласованным данным и уменьшать сложности строительства, обслуживания и синхронизации многих распределенных систем данных. См. раздел "Что такое озера данных?".
ETL и проектирование данных
Независимо от того, создаете ли вы панели мониторинга или работаете с приложениями искусственного интеллекта, проектирование данных обеспечивает основу для компаний, ориентированных на данные, обеспечивая доступность, очистку и хранение данных в моделях данных, которые позволяют эффективно обнаруживать и использовать их. Azure Databricks объединяет возможности Apache Spark с Delta Lake и пользовательскими средствами для обеспечения неуваживаемого ETL (извлечения, преобразования, загрузки). Вы можете использовать SQL, Python и Scala для создания логики ETL, а затем оркестрировать запланированное развертывание заданий с помощью нескольких щелчков мыши.
Разностные динамические таблицы упрощают ETL еще больше, интеллектуально управляя зависимостями между наборами данных и автоматически развертывая и масштабируя рабочую инфраструктуру, чтобы обеспечить своевременную и точную доставку данных в соответствии с вашими спецификациями.
Azure Databricks предоставляет ряд пользовательских средств приема данных, включая автозагрузчик, эффективный и масштабируемый инструмент для добавочной и идемпотентной загрузки данных из облачного хранилища объектов и озер данных в хранилище данных.
Машинное обучение, ИИ и обработка и анализ данных
Машинное обучение Azure Databricks расширяет основные функциональные возможности платформы с помощью набора инструментов, адаптированных к потребностям специалистов по обработке и анализу данных и инженеров машинного обучения, включая MLflow и Databricks Runtime для Машинное обучение.
Крупные языковые модели и генерируемый ИИ
Databricks Runtime для Машинное обучение включает библиотеки, такие как Преобразователи лиц Hugging, которые позволяют интегрировать существующие предварительно обученные модели или другие библиотеки с открытым кодом в рабочий процесс. Интеграция Databricks MLflow упрощает использование службы отслеживания MLflow с конвейерами, моделями и компонентами обработки. Кроме того, вы можете интегрировать модели Или решения OpenAI от партнеров, таких как John Snow Labs в рабочих процессах Databricks .
С помощью Azure Databricks вы можете настроить LLM для данных для конкретной задачи. Благодаря поддержке открытый код инструментов, таких как Hugging Face и DeepSpeed, вы можете эффективно взять основу LLM и начать обучение с собственными данными, чтобы иметь большую точность для вашего домена и рабочей нагрузки.
Кроме того, Azure Databricks предоставляет функции искусственного интеллекта, которые аналитики данных SQL могут использовать для доступа к моделям LLM, в том числе из OpenAI, непосредственно в своих конвейерах данных и рабочих процессах. См. функции ИИ в Azure Databricks.
Хранение данных, аналитика и бизнес-аналитика
Azure Databricks объединяет пользовательские интерфейсы с экономичными вычислительными ресурсами и бесконечно масштабируемым, доступным хранилищем, чтобы обеспечить мощную платформу для выполнения аналитических запросов. Администраторы настраивают масштабируемые вычислительные кластеры в качестве хранилищ SQL, позволяя конечным пользователям выполнять запросы, не беспокоясь о каких-либо сложностях работы в облаке. Пользователи SQL могут выполнять запросы к данным в lakehouse с помощью редактора sql-запросов или записных книжек. Записные книжки поддерживают Python, R и Scala в дополнение к SQL и позволяют пользователям внедрять те же визуализации , доступные на устаревших панелях мониторинга вместе со ссылками, изображениями и комментариями, написанными в markdown.
Управление данными и безопасный обмен данными
Каталог Unity предоставляет единую модель управления данными для озера данных. Администраторы облака настраивают и интегрируют разрешения на управление доступом для каталога Unity, а затем администраторы Azure Databricks могут управлять разрешениями для команд и отдельных лиц. Привилегии управляются списками управления доступом (ACL) с помощью пользовательских интерфейсов или синтаксиса SQL, что упрощает доступ администраторов баз данных к данным без необходимости масштабировать управление доступом к данным в облаке (IAM) и сети.
Каталог Unity делает выполнение безопасной аналитики в облаке простым и предоставляет разделение ответственности, которое помогает ограничить перераспрошивание или upskilling, необходимый для администраторов и конечных пользователей платформы. См. статью Что такое Unity Catalog?
Lakehouse делает общий доступ к данным в организации так же просто, как предоставление доступа к таблице или представлению запроса. Для общего доступа за пределами защищенной среды каталог Unity предоставляет управляемую версию Delta Sharing.
DevOps, CI/CD и оркестрация задач
Жизненные циклы разработки для конвейеров ETL, моделей машинного обучения и панелей мониторинга аналитики представляют свои уникальные проблемы. Azure Databricks позволяет всем пользователям использовать один источник данных, что снижает дублирование усилий и не синхронизированные отчеты. Кроме того, предоставляя набор общих средств для управления версиями, автоматизации, планирования, развертывания кода и рабочих ресурсов, вы можете упростить затраты на мониторинг, оркестрацию и операции. Задания планируют записные книжки Azure Databricks, запросы SQL и другой произвольный код. Папки Git позволяют синхронизировать проекты Azure Databricks с рядом популярных поставщиков git. Полный обзор инструментов см. в Средства разработчика.
Аналитика в режиме реального времени и потоковой передачи
Azure Databricks использует структурированную потоковую передачу Apache Spark для работы с потоковыми данными и добавочными изменениями данных. Структурированная потоковая передача тесно интегрируется с Delta Lake, и эти технологии предоставляют основы как для разностных динамических таблиц, так и для автозагрузчика. См. статью "Потоковая передача" в Azure Databricks.