Основные понятия данных в Машинное обучение Azure

С помощью Машинное обучение Azure можно импортировать данные с локального компьютера или существующего облачного ресурса хранилища. В этой статье описываются основные понятия Машинное обучение Azure данных.

Хранилище данных

Хранилище данных Машинное обучение Azure служит ссылкой на существующую учетную запись хранения Azure. Хранилище данных Машинное обучение Azure предлагает следующие преимущества:

  • Общий простой API, взаимодействующий с различными типами хранилища (BLOB-объекты/файлы/ADLS).
  • Упрощение обнаружения полезных хранилищ данных в операциях группы.
  • Для доступа на основе учетных данных (субъект-служба/SAS/ключ) Машинное обучение Azure хранилище данных защищает сведения о подключении. Таким образом, вам не нужно размещать эти сведения в скриптах.

При создании хранилища данных с существующей учетной записью хранения Azure у вас есть два варианта метода проверки подлинности:

  • На основе учетных данных — проверка подлинности доступа к данным с помощью субъекта-службы, маркера подписанного URL-адреса (SAS) или ключа учетной записи. Пользователи с доступом к рабочей области читателя могут получить доступ к учетным данным.
  • На основе удостоверений используйте удостоверение Microsoft Entra или управляемое удостоверение для проверки подлинности доступа к данным.

В этой таблице приведены облачные службы хранилища Azure, которые могут создавать Машинное обучение Azure хранилище данных. Кроме того, в таблице перечислены типы проверки подлинности, которые могут получить доступ к этим службам:

Поддерживаемая служба хранилища Проверка подлинности на основе учетных данных Проверка подлинности на основе удостоверений
контейнер BLOB-объектов Azure;
Общая папка Azure
Azure Data Lake 1-го поколения
Azure Data Lake 2-го поколения

Дополнительные сведения о хранилищах данных см. в статье "Создание хранилищ данных".

Хранилища данных по умолчанию

Каждая рабочая область Машинное обучение Azure имеет учетную запись хранения по умолчанию (учетную запись хранения Azure), содержащую эти хранилища данных:

Совет

Чтобы найти идентификатор рабочей области, перейдите в рабочую область в портал Azure. Разверните узел "Параметры" и выберите "Свойства". Появится идентификатор рабочей области.

Имя хранилища данных Тип хранилища данных Имя хранилища данных Description
workspaceblobstore Контейнер BLOB-объектов azureml-blobstore-{workspace-id} Хранит отправку данных, моментальные снимки кода задания и кэш данных конвейера.
workspaceworkingdirectory Общая папка code-{GUID} Хранит данные для записных книжек, вычислительных экземпляров и потока запросов.
workspacefilestore Общая папка azureml-filestore-{workspace-id} Альтернативный контейнер для отправки данных.
workspaceartifactstore Контейнер BLOB-объектов azureml Хранилище для ресурсов, таких как метрики, модели и компоненты.

Типы данных

URI (место хранения) может ссылаться на файл, папку или таблицу данных. Для определения входных и выходных данных задания машинного обучения требуется один из трех типов данных:

Тип API версии 2 API версии 1 Канонические сценарии Разница API между версиями V2 и V1
Файл
Ссылка на один файл
uri_file FileDataset Чтение и запись одного файла — файл может иметь любой формат. Новый тип для API версии 2. В API версии 1 файлы всегда сопоставляются с папкой в целевой файловой системе вычислительной среды; для этого сопоставления требуется os.path.join. В API версии 2 сопоставляется один файл. Таким образом, вы можете ссылаться на это расположение в коде.
Папка
Ссылка на одну папку
uri_folder FileDataset Необходимо иметь разрешения на чтение/запись папки с файлами parquet/CSV в Pandas/Spark.

Глубокое обучение с изображениями, текстом, аудио-, видеофайлами, расположенными в папке.
В API версии 1 у FileDataset был связанный обработчик, который мог взять образец файла из папки. В API версии 2 папка — это простое сопоставление с целевой файловой системой вычислений.
Таблицу
Ссылка на таблицу данных
mltable TabularDataset У вас сложная схема с частыми изменениями или требуется подмножество больших табличных данных.

AutoML с таблицами.
В API версии 1 серверная часть Машинного обучения Azure сохранила схему материализации данных. В результате вы работали только в том случае, TabularDataset если у вас была Машинное обучение Azure рабочая область. mltable хранит схему материализации данных в хранилище . Это расположение хранилища означает, что вы можете использовать его, отключенный для Машинное обучение Azure, например локально и локально. В API версии 2 проще перейти от локальных к удаленным заданиям. Дополнительные сведения см. в статье "Работа с таблицами" в Машинное обучение Azure.

URI-адрес

Универсальный идентификатор ресурса (URI) представляет расположение хранилища на локальном компьютере, хранилище Azure или общедоступное расположение http(s). В этих примерах показаны URI для различных вариантов хранения:

Место хранения Примеры URI
хранилище данных Машинное обучение Azure azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
Локальный компьютер ./home/username/data/my_data
Общедоступный сервер http(s) https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
Хранилище BLOB-объектов wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (2-го поколения) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (1-го поколения) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

Задание Машинное обучение Azure сопоставляет URI с целевой файловой системой вычислений. Это сопоставление означает, что для команды, которая использует или создает URI, этот URI работает как файл или папка. URI использует проверку подлинности на основе удостоверений для подключения к службам хранилища с идентификатором Microsoft Entra (по умолчанию) или управляемым удостоверением. Машинное обучение Azure URI хранилища данных могут применять проверку подлинности на основе удостоверений или учетные данные (например, субъект-служба, маркер SAS, ключ учетной записи), без раскрытия секретов.

Универсальный код ресурса (URI) может служить входными или выходными данными для задания Машинное обучение Azure, и он может сопоставляться с целевой файловой системой вычислений с одним из четырех различных вариантов режима:

  • Подключение только для чтения (ro_mount): URI представляет расположение хранилища, подключенное к целевой файловой системе вычислений. Подключенное расположение данных поддерживает только выходные данные только для чтения.
  • Подключение для чтения и записи (): URI представляет расположение хранилища, подключенное к целевой файловой системе вычислений.rw_mount Подключенное расположение данных поддерживает как выходные данные чтения, так и записи данных в него.
  • Скачать (download): URI представляет место хранения, содержащее данные, скачанные в целевую файловую систему вычислений.
  • Отправка (upload): все данные, записанные в целевое расположение вычислений, передаются в расположение хранилища, представленное универсальным кодом ресурса (URI).

Кроме того, можно передать URI в качестве входной строки задания с прямым режимом. В этой таблице приведены сведения о сочетании режимов, доступных для входных и выходных данных:

Работа
Вход или выход
upload download ro_mount rw_mount direct
Входные данные
Выходные данные

Дополнительные сведения см . в разделе "Доступ к данным в задании".

Возможность выполнения данных

Машинное обучение Azure использует собственную среду выполнения данных для одной из трех целей:

  • для подключений, отправки и скачивания
  • Сопоставление URI хранилища с целевой файловой системой вычислений
  • для материализации табличных данных в pandas/spark с помощью таблиц Машинное обучение Azure (mltable)

Среда выполнения данных Машинное обучение Azure предназначена для обеспечения высокой скорости и высокой эффективности задач машинного обучения. Он предлагает следующие ключевые преимущества:

  • Архитектура языка Rust . Язык Rust известен высокой скоростью и высокой эффективностью памяти.
  • Легкий вес; среда выполнения данных Машинное обучение Azure не имеет зависимостей от других технологий — JVM, например, поэтому среда выполнения быстро устанавливается на целевые объекты вычислений.
  • Загрузка данных с несколькими процессами (параллельно).
  • Предварительное получение данных работает в качестве фоновой задачи на ЦП, чтобы повысить использование GPU в операциях глубокого обучения.
  • Простая проверка подлинности в облачном хранилище.

Ресурс данных

Ресурс данных Машинное обучение Azure напоминает закладки веб-браузера (избранное). Вместо запоминания длинных путей хранения (URI), указывающих на наиболее часто используемые данные, можно создать ресурс данных, а затем получить доступ к нему с понятным именем.

Создание ресурса данных также создает ссылку на расположение источника данных, а также копию ее метаданных. Так как данные остаются в существующем расположении, вы не несете дополнительных затрат на хранение и не рискуете целостностью источника данных. Вы можете создавать ресурсы данных из хранилищ данных Машинное обучение Azure, служба хранилища Azure, общедоступных URL-адресов или локальных файлов.

Дополнительные сведения о ресурсах данных см. в статье "Создание ресурсов данных".

Следующие шаги