Из этой статьи вы узнаете, как импортировать данные в платформу Машинное обучение Azure из внешних источников. Успешный импорт данных автоматически создает и регистрирует Машинное обучение Azure ресурс данных с именем, указанным во время этого импорта. Ресурс данных Машинное обучение Azure напоминает закладку веб-браузера (избранное). Вам не нужно запоминать длинные пути хранения (URI), указывающие на наиболее часто используемые данные. Вместо этого можно создать ресурс данных, а затем получить доступ к ним с понятным именем.
Импорт данных создает кэш исходных данных, а также метаданные для быстрого и надежного доступа к данным в заданиях обучения Машинное обучение Azure. Кэш данных избегает ограничений сети и подключений. Кэшированные данные версии поддерживают воспроизводимость. Это обеспечивает возможности управления версиями для данных, импортированных из источников SQL Server. Кроме того, кэшированные данные предоставляют данные для задач аудита. Импорт данных использует ADF (Фабрика данных Azure конвейеры) за кулисами, что означает, что пользователи могут избежать сложного взаимодействия с ADF. За кулисами Машинное обучение Azure также обрабатывает управление размером пула вычислительных ресурсов ADF, подготовкой вычислительных ресурсов и сносом данных для оптимизации передачи данных путем определения правильной параллелизации.
Передаваемые данные секционируются и безопасно хранятся в виде файлов parquet в хранилище Azure. Это позволяет ускорить обработку во время обучения. Затраты на вычисления ADF включают только время, используемое для передачи данных. Затраты на хранение включают только время, необходимое для кэширования данных, так как кэшированные данные являются копией данных, импортированных из внешнего источника. Хранилище Azure размещает внешний источник.
Функция кэширования включает предварительные затраты на вычисления и хранение. Однако она платит за себя и может сэкономить деньги, так как сокращает повторяющиеся затраты на обучение вычислительных ресурсов по сравнению с прямыми подключениями к внешним данным источника во время обучения. Он кэширует данные в виде файлов parquet, что делает обучение заданий быстрее и надежнее при истечении времени ожидания подключения для больших наборов данных. Это приводит к меньшему количестве повторных запусков и меньшем количестве сбоев обучения.
Вы можете импортировать данные из Amazon S3, SQL Azure и Snowflake.
Внимание
Эта функция сейчас доступна в виде общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания. Ее не следует использовать для производственных рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены.
Для успешного импорта данных убедитесь, что установлен последний пакет azure-ai-ml (версия 1.15.0 или более поздней версии) для пакета SDK, а также расширение ml (версия 2.15.1 или более поздняя).
Если у вас есть более старый пакет SDK или расширение CLI, удалите старый и установите новый с кодом, показанным в разделе вкладки. Следуйте инструкциям по пакету SDK и CLI, как показано здесь:
az extension remove -n ml
az extension add -n ml --yes
az extension show -n ml #(the version value needs to be 2.15.1 or later)
pip install azure-ai-ml
pip show azure-ai-ml #(the version value needs to be 1.15.0 or later)
Недоступна.
Импорт из внешней базы данных в качестве ресурса данных mltable
Примечание.
Внешние базы данных могут иметь форматы Snowflake, SQL Azure и т. д.
Следующие примеры кода могут импортировать данные из внешних баз данных. Функция connection , которая обрабатывает действие импорта, определяет метаданные внешнего источника данных базы данных. В этом примере код импортирует данные из ресурса Snowflake. Подключение указывает на источник Snowflake. При небольшом изменении подключение может указывать на источник базы данных SQL Azure и источник базы данных SQL Azure. Импортированный ресурс type из внешнего источника базы данных.mltable
В примере, приведенном здесь, описывается процесс для базы данных Snowflake. Однако этот процесс охватывает другие форматы внешних баз данных, такие как SQL Azure и т. д.
В разделе "Ресурсы " в области навигации слева выберите "Данные". Затем выберите вкладку "Импорт данных". Затем нажмите кнопку "Создать", как показано на снимке экрана:
На экране источника данных выберите Snowflake и нажмите кнопку "Далее", как показано на снимке экрана:
На экране "Тип данных" введите значения. Значение type по умолчанию имеет значение Table (mltable). Затем нажмите кнопку "Далее", как показано на этом снимке экрана:
На экране "Создание импорта данных" введите значения и нажмите кнопку "Далее", как показано на снимке экрана:
Введите значения на экране выбора хранилища данных и нажмите кнопку "Далее", как показано на снимке экрана. По умолчанию управляемое хранилище данных рабочей области выбирается; путь автоматически назначается системой при выборе управляемого хранилища данных. Если выбрать управляемое хранилище данных рабочей области, появится раскрывающийся список "Автоматическое удаление ". Он предлагает период времени удаления данных в течение 30 дней по умолчанию, а также способ управления импортированными ресурсами данных объясняет, как изменить это значение.
Примечание.
Чтобы выбрать собственное хранилище данных, выберите другие хранилища данных. В этом случае необходимо выбрать путь к расположению кэша данных.
Можно добавить расписание. Выберите " Добавить расписание ", как показано на этом снимке экрана:
Откроется новая панель, в которой можно определить расписание повторения или расписание Cron . На этом снимка экрана показана панель расписания повторения :
Имя: уникальный идентификатор расписания в рабочей области.
Описание: описание расписания.
Триггер: шаблон повторения расписания, который включает следующие свойства.
Часовой пояс: расчет времени триггера основан на этом часовом поясе; (UTC) По умолчанию координированное универсальное время.
Выражение повторения или Cron: выберите повторение, чтобы указать повторяющийся шаблон. В разделе "Повторение" можно указать частоту повторения по минутам, часам, дням, неделям или месяцам.
Начало: расписание сначала становится активным на этой дате. По умолчанию дата создания этого расписания.
Конец: расписание станет неактивным после этой даты. По умолчанию это NONE, что означает, что расписание всегда будет активным, пока вы не отключите его вручную.
Теги: выбранные теги расписания.
Примечание.
Start задает дату и время начала с часовой пояс расписания. Если запуск опущен, время начала равно времени создания расписания. В течение времени начала в прошлом первое задание выполняется в следующее вычисляемое время выполнения.
На следующем снимка экрана показан последний экран этого процесса. Просмотрите выбранные варианты и нажмите кнопку "Создать". На этом экране и других экранах этого процесса нажмите кнопку "Назад", чтобы перейти на более ранние экраны, чтобы изменить выбор значений.
Снимок экрана: панель для расписания Cron :
Имя: уникальный идентификатор расписания в рабочей области.
Описание: описание расписания.
Триггер: шаблон повторения расписания, который включает следующие свойства.
Часовой пояс: расчет времени триггера основан на этом часовом поясе; (UTC) По умолчанию координированное универсальное время.
Повторение или выражение Cron: выберите выражение cron, чтобы указать сведения о cron.
(обязательно)expression использует стандартное выражение crontab для выражения повторяющегося расписания. Одно выражение состоит из пяти полей с разделителями-пробелами:
MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK
Один подстановочный знак (*), который охватывает все значения поля. В *днях означает все дни месяца (который зависит от месяца и года).
В expression: "15 16 * * 1" приведенном выше примере означает 16:15 в каждый понедельник.
В следующей таблице перечислены допустимые значения для каждого поля:
Поле
Диапазон
Комментарий
MINUTES
0-59
-
HOURS
0-23
-
DAYS
-
Не поддерживается. Значение игнорируется и обрабатывается как *.
MONTHS
-
Не поддерживается. Значение игнорируется и обрабатывается как *.
DAYS-OF-WEEK
0–6
Ноль (0) означает воскресенье. Также принимаются имена дней.
Значения DAYS и MONTH не поддерживаются. Если передать одно из этих значений, он будет игнорироваться и рассматриваться как *.
Начало: расписание сначала становится активным на этой дате. По умолчанию дата создания этого расписания.
Конец: расписание станет неактивным после этой даты. По умолчанию это NONE, что означает, что расписание всегда будет активным, пока вы не отключите его вручную.
Теги: выбранные теги расписания.
Примечание.
Start задает дату и время начала с часовой пояс расписания. Если запуск опущен, время начала равно времени создания расписания. В течение времени начала в прошлом первое задание выполняется в следующее вычисляемое время выполнения.
На следующем снимка экрана показан последний экран этого процесса. Просмотрите выбранные варианты и нажмите кнопку "Создать". На этом экране и других экранах этого процесса нажмите кнопку "Назад", чтобы перейти на более ранние экраны, чтобы изменить выбор значений.
Импорт данных из внешней файловой системы в качестве ресурса данных папки
Примечание.
Ресурс данных Amazon S3 может служить внешним ресурсом файловой системы.
Обработка connection действия импорта данных определяет аспекты внешнего источника данных. Подключение определяет контейнер Amazon S3 в качестве целевого объекта. Подключение ожидает допустимого path значения. Значение ресурса, импортированное из внешнего источника файловой системы, имеет значение typeuri_folder.
Следующий пример кода импортирует данные из ресурса Amazon S3.
В разделе "Ресурсы " в области навигации слева выберите "Данные". Затем выберите вкладку "Импорт данных". Затем нажмите кнопку "Создать", как показано на этом снимке экрана:
На экране источника данных выберите S3 и нажмите кнопку "Далее", как показано на снимке экрана:
На экране "Тип данных" введите значения. Значение type по умолчанию используется в папке (uri_folder). Затем нажмите кнопку "Далее", как показано на этом снимке экрана:
На экране "Создание импорта данных" введите значения и нажмите кнопку "Далее", как показано на снимке экрана:
Введите значения на экране выбора хранилища данных и нажмите кнопку "Далее", как показано на снимке экрана. Управляемое хранилище данных рабочей области выбрано по умолчанию; путь автоматически назначается системой при выборе управляемого хранилища данных. Если выбрать управляемое хранилище данных рабочей области, появится раскрывающийся список "Автоматическое удаление ". Он предлагает период времени удаления данных в течение 30 дней по умолчанию, а также способ управления импортированными ресурсами данных объясняет, как изменить это значение.
Можно добавить расписание. Выберите " Добавить расписание ", как показано на этом снимке экрана:
Откроется новая панель, в которой можно определить расписание повторения или расписание Cron . На этом снимка экрана показана панель расписания повторения :
Имя: уникальный идентификатор расписания в рабочей области.
Описание: описание расписания.
Триггер: шаблон повторения расписания, который включает следующие свойства.
Часовой пояс: расчет времени триггера основан на этом часовом поясе; (UTC) По умолчанию координированное универсальное время.
Выражение повторения или Cron: выберите повторение, чтобы указать повторяющийся шаблон. В разделе "Повторение" можно указать частоту повторения по минутам, часам, дням, неделям или месяцам.
Начало: расписание сначала становится активным на этой дате. По умолчанию дата создания этого расписания.
Конец: расписание станет неактивным после этой даты. По умолчанию это NONE, что означает, что расписание всегда будет активным, пока вы не отключите его вручную.
Теги: выбранные теги расписания.
Примечание.
Start задает дату и время начала с часовой пояс расписания. Если запуск опущен, время начала равно времени создания расписания. В течение времени начала в прошлом первое задание выполняется в следующее вычисляемое время выполнения.
Как показано на следующем снимке экрана, просмотрите выбранные варианты на последнем экране этого процесса и нажмите кнопку "Создать". На этом экране и на других экранах этого процесса выберите "Назад", чтобы перейти на более ранние экраны, если вы хотите изменить выбор значений.
На следующем снимка экрана показан последний экран этого процесса. Просмотрите выбранные варианты и нажмите кнопку "Создать". На этом экране и других экранах этого процесса нажмите кнопку "Назад", чтобы перейти на более ранние экраны, чтобы изменить выбор значений.
Снимок экрана: панель для расписания Cron :
Имя: уникальный идентификатор расписания в рабочей области.
Описание: описание расписания.
Триггер: шаблон повторения расписания, который включает следующие свойства.
Часовой пояс: расчет времени триггера основан на этом часовом поясе; (UTC) По умолчанию координированное универсальное время.
Повторение или выражение Cron: выберите выражение cron, чтобы указать сведения о cron.
(обязательно)expression использует стандартное выражение crontab для выражения повторяющегося расписания. Одно выражение состоит из пяти полей с разделителями-пробелами:
MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK
Один подстановочный знак (*), который охватывает все значения поля. В *днях означает все дни месяца (который зависит от месяца и года).
В expression: "15 16 * * 1" приведенном выше примере означает 16:15 в каждый понедельник.
В следующей таблице перечислены допустимые значения для каждого поля:
Поле
Диапазон
Комментарий
MINUTES
0-59
-
HOURS
0-23
-
DAYS
-
Не поддерживается. Значение игнорируется и обрабатывается как *.
MONTHS
-
Не поддерживается. Значение игнорируется и обрабатывается как *.
DAYS-OF-WEEK
0–6
Ноль (0) означает воскресенье. Также принимаются имена дней.
Значения DAYS и MONTH не поддерживаются. Если передать одно из этих значений, он будет игнорироваться и рассматриваться как *.
Начало: расписание сначала становится активным на этой дате. По умолчанию дата создания этого расписания.
Конец: расписание станет неактивным после этой даты. По умолчанию это NONE, что означает, что расписание всегда будет активным, пока вы не отключите его вручную.
Теги: выбранные теги расписания.
Примечание.
Start задает дату и время начала с часовой пояс расписания. Если запуск опущен, время начала равно времени создания расписания. В течение времени начала в прошлом первое задание выполняется в следующее вычисляемое время выполнения.
На следующем снимка экрана показан последний экран этого процесса. Просмотрите выбранные варианты и нажмите кнопку "Создать". На этом экране и других экранах этого процесса нажмите кнопку "Назад", чтобы перейти на более ранние экраны, чтобы изменить выбор значений.
Проверка состояния импорта внешних источников данных
Действие импорта данных — это асинхронное действие. Это может занять много времени. После отправки действия импорта данных с помощью интерфейса командной строки или пакета SDK служба Машинное обучение Azure может потребовать несколько минут для подключения к внешнему источнику данных. Затем служба запустит импорт данных и обработает кэширование и регистрацию данных. Время, необходимое для импорта данных, также зависит от размера исходного набора данных.
В следующем примере возвращается состояние действия импорта отправленных данных. Команда или метод используют имя ресурса данных в качестве входных данных для определения состояния материализации данных.