Что такое обнимать преобразователи лиц?

В этой статье приведены общие сведения об обнимках преобразователей лиц в Azure Databricks. В ней содержатся рекомендации по использованию преобразователей распознавания лиц и его установке в кластере.

Фон для обнимания преобразователей лиц

Обнимать преобразователи лиц — это платформа с открытым исходным кодом для глубокого обучения, созданного Hugging Face. Он предоставляет API-интерфейсы и средства для скачивания предварительно обученных моделей и дальнейшего их настройки для повышения производительности. Эти модели поддерживают общие задачи в различных модальности, таких как обработка естественного языка, компьютерное зрение, аудио и мультимодальные приложения.

Примечание.

Лицензия Apache 2.0.

Databricks Runtime для Машинное обучение включает hugging Face в Databricks Runtime 10.4 LTS ML и более поздних версий, а также включает наборы данных обнимания лицtransformers, ускорение и оценку в Databricks Runtime 13.0 ML и более поздних версий.

Чтобы проверить, какая версия Hugging Face включена в настроенную версию Databricks Runtime ML, ознакомьтесь с разделом библиотек Python в соответствующих заметках о выпуске.

Зачем использовать обнимающиеся преобразователи лиц?

Для многих приложений, таких как анализ тональности и сводка текста, предварительно обученные модели хорошо работают без дополнительного обучения модели.

Обнимать конвейеры преобразователей лиц кодируют рекомендации и имеют модели по умолчанию, выбранные для различных задач, что упрощает начало работы. Конвейеры упрощают использование графических процессоров при наличии и разрешают пакетную обработку элементов, отправляемых в GPU, для повышения производительности пропускной способности.

Обнимающая лицо предоставляет:

  • Центр моделей, содержащий множество предварительно обученных моделей.
  • 🤗 Библиотека Преобразователей, которая поддерживает скачивание и использование этих моделей для приложений NLP и тонкой настройки. Обычно требуется как токенизатор, так и модель для задач обработки естественного языка.
  • 🤗 Конвейеры преобразователей , которые имеют простой интерфейс для большинства задач обработки естественного языка.

Установите transformers

Если версия Databricks Runtime в кластере не включает hugging Face, можно установить последнюю библиотеку распознавания лиц transformerstransformers в качестве библиотеки PyPI Databricks.

  %pip install transformers

Установка зависимостей модели

Разные модели могут иметь разные зависимости. Databricks рекомендует использовать команды %pip magic для установки этих зависимостей по мере необходимости.

Ниже приведены распространенные зависимости:

  • librosa: поддерживает декодирование звуковых файлов.
  • soundfile: требуется при создании некоторых звуковых наборов данных.
  • bitsandbytes: обязательный при использовании load_in_8bit=True.
  • SentencePiece: используется в качестве маркеризатора для моделей NLP.
  • timm: требуется detrForSegmentation.

Обучение на отдельном узле

Для тестирования и переноса рабочих процессов одного компьютера используйте кластер с одним узлом.

Дополнительные ресурсы

В следующих статьях приведены примеры записных книжек и рекомендации по использованию hugging Face transformers для крупной языковой модели (LLM) и вывода модели в Azure Databricks.