ИИ и машинное обучение в Databricks

В этой статье описываются средства, которые предоставляет Мозаизайчная ИИ (ранее Databricks Машинное обучение) для создания систем искусственного интеллекта и машинного обучения. На схеме показано, как различные продукты на платформе Databricks помогают реализовать конечные рабочие процессы для создания и развертывания систем искусственного интеллекта и машинного обучения.

Схема машинного обучения: разработка и развертывание моделей в Databricks

Создание искусственного интеллекта в Databricks

Мозаика ИИ объединяет жизненный цикл ИИ из сбора и подготовки данных, для разработки моделей и LLMOps для обслуживания и мониторинга. Следующие функции оптимизированы специально для упрощения разработки создаваемых приложений ИИ:

  • Каталог Unity для управления, обнаружения, управления версиями и управления доступом для данных, функций, моделей и функций.
  • MLflow для отслеживания разработки моделей.
  • Мозаичная модель ИИ, обслуживающая развертывание LLM. Вы можете настроить конечную точку обслуживания модели специально для доступа к созданным моделям ИИ:
  • Поиск векторов Вектора мозаики предоставляет запрашиваемую базу данных векторов, в которой хранятся векторы внедрения и можно настроить автоматическую синхронизацию с база знаний.
  • Мониторинг Lakehouse для мониторинга данных и отслеживания прогнозирования модели и смещения с помощью автоматического ведения журнала полезных данных с таблицами вывода.
  • Платформа искусственного интеллекта для тестирования созданных моделей ИИ из рабочей области Databricks. Вы можете запрашивать, сравнивать и настраивать параметры, такие как системный запрос и параметры вывода.
  • Обучение модели ИИ Мозаики (прежнее название — Обучение модели Foundation) для настройки базовой модели с помощью собственных данных для оптимизации производительности для конкретного приложения.
  • Платформа агента ИИ мозаики для создания и развертывания рабочих агентов, таких как приложения для получения дополненного поколения (RAG).
  • Оценка агента ИИ мозаики для оценки качества, стоимости и задержки создаваемых приложений ИИ, включая приложения и цепочки RAG.

Что такое генеративный ИИ?

Генерируемый ИИ — это тип искусственного интеллекта, ориентированный на способность компьютеров использовать модели для создания содержимого, такого как изображения, текст, код и искусственные данные.

Созданные приложения ИИ создаются на основе моделей создания ИИ: больших языковых моделей (LLMs) и базовых моделей.

  • LLM — это модели глубокого обучения, которые используют и обучают массовые наборы данных, чтобы преуспеть в задачах обработки языка. Они создают новые сочетания текста, которые имитируют естественный язык на основе их обучающих данных.
  • Модели создания ИИ или базовые модели — это модели больших машинного обучения, предварительно обученные с целью их точной настройки для более конкретных задач распознавания речи и создания. Эти модели используются для распознавания шаблонов в входных данных.

После завершения процессов обучения эти модели вместе создают статистически вероятные выходные данные при появлении запроса и их можно использовать для выполнения различных задач, в том числе:

  • Создание изображений на основе существующих или использование стиля одного образа для изменения или создания нового образа.
  • Задачи речи, такие как транскрибирование, перевод, создание вопросов и ответов, а также интерпретация намерения или смысла текста.

Внимание

Хотя многие модули LLM или другие модели создания ИИ имеют гарантии, они по-прежнему могут создавать вредные или неточные сведения.

У генеривных ИИ есть следующие шаблоны проектирования:

  • Инженерия запросов: создание специализированных запросов для руководства по поведению LLM
  • Получение дополненного поколения (RAG): объединение LLM с внешним извлечением знаний
  • Предварительная настройка: адаптация предварительно обученного LLM к определенным наборам данных доменов
  • Предварительная подготовка: обучение LLM с нуля

Машинное обучение в Databricks

С помощью Мозаичного ИИ одна платформа служит каждому шагу разработки и развертывания машинного обучения, от необработанных данных до таблиц вывода, которые сохраняют каждый запрос и ответ на обслуживаемую модель. Специалисты по обработке и анализу данных, инженеры машинного обучения и DevOps могут выполнять свои задачи с помощью одного набора инструментов и одного источника истины для данных.

Мозаика ИИ объединяет уровень данных и платформу машинного обучения. Все ресурсы данных и артефакты, такие как модели и функции, доступны для обнаружения и управляются в одном каталоге. Использование одной платформы для данных и моделей позволяет отслеживать происхождение необработанных данных в рабочую модель. Встроенные данные и мониторинг моделей сохраняют метрики качества в таблицах, которые также хранятся на платформе, что упрощает определение первопричин проблем производительности модели. Дополнительные сведения о том, как Databricks поддерживает полный жизненный цикл машинного обучения и MLOps, см . в рабочих процессах MLOps в Azure Databricks и MLOps Stacks: процесс разработки моделей в виде кода.

Ниже приведены некоторые ключевые компоненты платформы аналитики данных:

Задачи Компонент
Управление данными, функциями, моделями и функциями и управление ими. Кроме того, обнаружение, управление версиями и происхождение. Каталог Unity
Отслеживание изменений в качестве данных, качества данных и прогнозирования модели Мониторинг Lakehouse, таблицы вывода
Разработка функций и управление ими Проектирование функций и обслуживание.
Обучение моделей Мозаика AutoML, Записные книжки Databricks
Отслеживание разработки модели Отслеживание MLflow
Обслуживание пользовательских моделей Мозаичная модель ИИ, обслуживающая.
Создание автоматизированных рабочих процессов и готовых к работе конвейеров ETL Задания Databricks
Интеграция с Git Папки Databricks Git

Глубокое обучение в Databricks

Настройка инфраструктуры для приложений глубокого обучения может быть сложной. Databricks Runtime для Машинное обучение заботится об этом с кластерами, которые имеют встроенные совместимые версии наиболее распространенных библиотек глубокого обучения, таких как TensorFlow, PyTorch и Keras.

Кластеры машинного обучения Databricks Runtime также включают предварительно настроенную поддержку GPU с драйверами и вспомогательными библиотеками. Она также поддерживает такие библиотеки, как Ray для параллелизации обработки вычислений для масштабирования рабочих процессов машинного обучения и приложений машинного обучения.

Кластеры машинного обучения Databricks Runtime также включают предварительно настроенную поддержку GPU с драйверами и вспомогательными библиотеками. Служба модели ИИ мозаики позволяет создавать масштабируемые конечные точки GPU для моделей глубокого обучения без дополнительной настройки.

Для приложений машинного обучения Databricks рекомендует использовать кластер, на котором выполняется Databricks Runtime для машинного обучения. См. статью "Создание кластера с помощью машинного обучения среды выполнения Databricks".

Сведения о начале глубокого обучения в Databricks см. в статье:

Следующие шаги

Чтобы начать работу, см. следующие статьи.

Рекомендуемый рабочий процесс MLOps в Databricks Mosaic AI см. в статье:

Дополнительные сведения о ключевых функциях Databricks Mosaic AI см. в следующем разделе: