automl Пакет
Содержит классы автоматизированного машинного обучения для Пакета SDK 2 машинного обучения Azure.
Основные области включают управление задачами AutoML.
Классы
ClassificationJob |
Настройка задания классификации AutoML. Инициализация новой задачи классификации AutoML. |
ColumnTransformer |
Параметры преобразователя столбцов. |
ForecastingJob |
Настройка задачи прогнозирования AutoML. Инициализируйте новую задачу прогнозирования AutoML. |
ForecastingSettings |
Параметры прогнозирования для задания AutoML. |
ImageClassificationJob |
Настройка задания многоклассовой классификации изображений AutoML. Инициализируйте новое задание многоклассовой классификации изображений AutoML. |
ImageClassificationMultilabelJob |
Настройка задания классификации изображений с несколькими метками AutoML. Инициализируйте новое задание классификации изображений с несколькими метками AutoML. |
ImageClassificationSearchSpace |
Поиск пространства для задач классификации изображений AutoML и классификации изображений с несколькими меткой. |
ImageInstanceSegmentationJob |
Настройка задания сегментации экземпляра образа AutoML. Инициализируйте новое задание сегментации экземпляра образа AutoML. |
ImageLimitSettings |
Ограничение параметров для вертикальных изображений AutoML. ImageLimitSettings — это класс, содержащий следующие параметры: max_concurrent_trials, max_trials и timeout_minutes. Это необязательный метод настройки для настройки параметров ограничений, таких как время ожидания и т. д. Примечание Количество параллельных прогонов зависит от ресурсов, доступных в заданном целевом объекте вычисления. Убедитесь, что целевой объект вычислений имеет доступные ресурсы для требуемого уровня параллелизма. Совет Рекомендуется сопоставить число max_concurrent_trials с количеством узлов в кластере. Например, если у вас есть кластер с 4 узлами, задайте для max_concurrent_trials значение 4. Пример использования Настройка ImageLimitSettings
Инициализируйте объект ImageLimitSettings. Конструктор для ImageLimitSettings для вертикальных изображений AutoML. |
ImageModelSettingsClassification |
Параметры модели для задач классификации изображений AutoML. |
ImageModelSettingsObjectDetection |
Параметры модели для задачи обнаружения объектов изображений AutoML. |
ImageObjectDetectionJob |
Настройка задания обнаружения объектов изображений AutoML. Инициализируйте новое задание обнаружения объектов изображений AutoML. |
ImageObjectDetectionSearchSpace |
Поиск пространства для задач обнаружения объектов изображений AutoML и сегментации экземпляров изображений. |
ImageSweepSettings |
Параметры очистки для всех вертикалей изображений AutoML. |
NlpFeaturizationSettings |
Параметры конструирования признаков для всех вертикалей NLP AutoML. |
NlpFixedParameters |
Объект для размещения фиксированных параметров для заданий NLP. |
NlpLimitSettings |
Ограничение параметров для всех вертикалей NLP AutoML. |
NlpSearchSpace |
Область поиска для задач NLP AutoML. |
NlpSweepSettings |
Параметры очистки для всех задач NLP AutoML. |
RegressionJob |
Настройка для задания регрессии AutoML. Инициализация новой задачи регрессии AutoML. |
SearchSpace |
Класс SearchSpace для вертикалей AutoML. |
StackEnsembleSettings |
Предварительный параметр для настройки выполнения StackEnsemble. |
TabularFeaturizationSettings |
Параметры конструирования признаков для задания AutoML. |
TabularLimitSettings |
Ограничение параметров для вертикалей таблицы AutoML. |
TextClassificationJob |
Настройка задания классификации текста AutoML. Инициализирует новую задачу классификации текста AutoML. |
TextClassificationMultilabelJob |
Настройка задания классификации текста AutoML с несколькими меткой. Инициализирует новую задачу классификации текста AutoML с несколькими метками. |
TextNerJob |
Настройка текстового задания NER AutoML. Инициализирует новую задачу AutoML Text NER. |
TrainingSettings |
Класс TrainingSettings для Машинного обучения Azure. Класс TrainingSettings для Машинного обучения Azure. |
Перечисления
BlockedTransformers |
Перечисление для всех моделей классификации, поддерживаемых AutoML. |
ClassificationModels |
Перечисление для всех моделей классификации, поддерживаемых AutoML. |
ClassificationMultilabelPrimaryMetrics |
Основные метрики для задач классификации с несколькими метками. |
ClassificationPrimaryMetrics |
Основные метрики для задач классификации. |
FeaturizationMode |
Режим конструирования признаков — определяет режим конструирования признаков данных. |
ForecastHorizonMode |
Перечисление для определения режима выбора горизонта прогноза. |
ForecastingModels |
Перечисление для всех моделей прогнозирования, поддерживаемых AutoML. |
ForecastingPrimaryMetrics |
Основные метрики для задачи прогнозирования. |
InstanceSegmentationPrimaryMetrics |
Основные метрики для задач InstanceSegmentation. |
LearningRateScheduler |
Перечисление планировщика скорости обучения. |
LogTrainingMetrics |
Содержит классы автоматизированного машинного обучения для Пакета SDK 2 машинного обучения Azure. Основные области включают управление задачами AutoML. |
LogValidationLoss |
Содержит классы автоматизированного машинного обучения для Пакета SDK 2 машинного обучения Azure. Основные области включают управление задачами AutoML. |
NCrossValidationsMode |
Определяет, как определяется значение N-Перекрестной проверки. |
ObjectDetectionPrimaryMetrics |
Основные метрики для задачи Image ObjectDetection. |
RegressionModels |
Перечисление для всех моделей регрессии, поддерживаемых AutoML. |
RegressionPrimaryMetrics |
Основные метрики для задачи регрессии. |
SamplingAlgorithmType |
Содержит классы автоматизированного машинного обучения для Пакета SDK 2 машинного обучения Azure. Основные области включают управление задачами AutoML. |
ShortSeriesHandlingConfiguration |
Параметр, определяющий, как AutoML должно обрабатывать короткие временные ряды. |
StochasticOptimizer |
Стохастический оптимизатор для моделей изображений. |
TargetAggregationFunction |
Целевая агрегатная функция. |
TargetLagsMode |
Режимы выбора целевых объектов запаздывает. |
TargetRollingWindowSizeMode |
Целевой режим размера скользящего окна. |
UseStl |
Настройка декомпозиции STL для целевого столбца временных рядов. |
ValidationMetricType |
Метод вычисления метрик, используемый для проверки метрик в задачах изображения. |
Функции
classification
Функция для создания задания ClassificationJob.
Задание классификации используется для обучения модели, которая лучше всего прогнозирует класс выборки данных. Различные модели обучаются с помощью обучающих данных. Модель с наилучшей производительностью данных проверки на основе основной метрики выбирается в качестве конечной модели.
classification(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, **kwargs) -> ClassificationJob
Параметры
- training_data
- Input
Обучающие данные, которые будут использоваться в эксперименте. Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки).
- target_column_name
- str
Имя столбца меток.
Этот параметр применим к training_data
параметрам , validation_data
и test_data
- primary_metric
Метрика, которую автоматизированное машинное обучение будет оптимизировать для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизировать. Дополнительные сведения о вычислении метрик приведены в https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Допустимые значения: точность, AUC_weighted, norm_macro_recall, average_precision_score_weighted и precision_score_weighted Значения по умолчанию
- enable_model_explainability
- bool
Следует ли включить объяснение оптимальной модели AutoML в конце всех итераций обучения AutoML. Значение по умолчанию — None. Дополнительные сведения см. в статье Интерпретируемость: объяснения модели в автоматизированном машинном обучении.
- weight_column_name
- str
Имя столбца с весом выборок. Автоматизированное машинное обучение поддерживает взвешенный столбец в качестве входных данных, и в результате вес строк данных меняется в большую или меньшую сторону. Если источником входных данных является pandas.DataFrame, где отсутствуют имена столбцов, вместо имен можно использовать индексы столбцов, выраженные в виде целых чисел.
Этот параметр применим к training_data
параметрам и validation_data
- validation_data
- Input
Данные проверки, которые будут использоваться в эксперименте. Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки).
Значение по умолчанию — Нет.
- validation_data_size
- float
Часть данных, которую следует оставить для проверки, если пользовательские данные проверки не указаны. Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).
Укажите validation_data
для предоставления данных проверки, в противном случае задайте n_cross_validations
или validation_data_size
, чтобы извлечь данные проверки из указанных данных для обучения.
Для пользовательской свертки перекрестной проверки используйте cv_split_column_names
.
Дополнительные сведения приведены в статье Настройка разделения и перекрестной проверки данных в автоматизированном машинном обучении.
Значение по умолчанию — Нет.
Количество перекрестных проверок, выполняемых в случае, когда не указаны пользовательские данные проверки.
Укажите validation_data
для предоставления данных проверки, в противном случае задайте n_cross_validations
или validation_data_size
, чтобы извлечь данные проверки из указанных данных для обучения.
Для пользовательской свертки перекрестной проверки используйте cv_split_column_names
.
Дополнительные сведения приведены в статье Настройка разделения и перекрестной проверки данных в автоматизированном машинном обучении.
Значение по умолчанию — Нет.
Список имен столбцов, содержащих разделение пользовательской перекрестной проверки (CV). Каждый из столбцов с разделением CV представляет одно разделение CV, где каждая строка помечается 1 для обучения или 0 для проверки.
Значение по умолчанию — Нет.
- test_data
- Input
Признак тестирования модели, использующий тестовые наборы данных или фрагменты тестовых данных, находится на этапе предварительной версии и может быть изменен в любое время. Тестовые данные, которые будут использоваться для тестового запуска, выполняемого автоматически после завершения обучения модели. Тестовый запуск будет получать прогнозы с использованием оптимальной модели и будет вычислять метрики на их основе.
Если этот параметр или параметр test_data_size
не указаны, тестовый запуск не будет выполнен автоматически после завершения обучения модели.
Тестовые данные должны содержать признаки и столбец меток.
Если указан test_data
, должен быть также задан параметр target_column_name
.
Значение по умолчанию — Нет.
- test_data_size
- float
Признак тестирования модели, использующий тестовые наборы данных или фрагменты тестовых данных, находится на этапе предварительной версии и может быть изменен в любое время. Часть данных обучения, которую следует оставить в качестве тестовых данных для тестового запуска, выполняемого автоматически после завершения обучения модели. Тестовый запуск будет получать прогнозы с использованием оптимальной модели и будет вычислять метрики на их основе.
Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).
Если параметр test_data_size
указан одновременно с параметром validation_data_size
, тестовые данные выделяются из training_data
до выделения данных проверки.
Например, если validation_data_size=0.1
, test_data_size=0.1
и исходные данные обучения содержат 1000 строк, то тестовые данные будут содержать 100 строк, данные проверки — 90 строк, а данные обучения — 810 строк.
Для задач на основе регрессии используется случайная выборка. Для задач классификации используется стратифицированная выборка. В настоящее время прогнозирование не поддерживает указание тестового набора данных с помощью разделения данных для обучения/тестирования.
Если этот параметр или параметр test_data
не указаны, тестовый запуск не будет выполнен автоматически после завершения обучения модели.
Значение по умолчанию — Нет.
Возвращаемое значение
Объект задания, который можно отправить в вычисление Машинного обучения Azure для выполнения.
Возвращаемый тип
forecasting
Функция для создания задания прогнозирования.
Задача прогнозирования используется для прогнозирования целевых значений на будущий период времени на основе исторических данных. Различные модели обучаются с помощью обучающих данных. Модель с наилучшей производительностью данных проверки на основе основной метрики выбирается в качестве конечной модели.
forecasting(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, forecasting_settings: ForecastingSettings | None = None, **kwargs) -> ForecastingJob
Параметры
- training_data
- Input
Обучающие данные, которые будут использоваться в эксперименте. Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки).
- target_column_name
- str
Имя столбца меток.
Этот параметр применим к training_data
параметрам , validation_data
и test_data
- primary_metric
Метрика, которую автоматизированное машинное обучение будет оптимизировать для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизировать. Дополнительные сведения о вычислении метрик приведены в https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Допустимые значения: r2_score, normalized_mean_absolute_error normalized_root_mean_squared_error По умолчанию normalized_root_mean_squared_error
- enable_model_explainability
- bool
Следует ли включить объяснение оптимальной модели AutoML в конце всех итераций обучения AutoML. Значение по умолчанию — None. Дополнительные сведения см. в статье Интерпретируемость: объяснения модели в автоматизированном машинном обучении.
- weight_column_name
- str
Имя столбца с весом выборок. Автоматизированное машинное обучение поддерживает взвешенный столбец в качестве входных данных, и в результате вес строк данных меняется в большую или меньшую сторону. Если источником входных данных является pandas.DataFrame, где отсутствуют имена столбцов, вместо имен можно использовать индексы столбцов, выраженные в виде целых чисел.
Этот параметр применим к training_data
параметрам и validation_data
- validation_data
- Input
Данные проверки, которые будут использоваться в эксперименте. Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки).
Значение по умолчанию — Нет.
- validation_data_size
- float
Часть данных, которую следует оставить для проверки, если пользовательские данные проверки не указаны. Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).
Укажите validation_data
для предоставления данных проверки, в противном случае задайте n_cross_validations
или validation_data_size
, чтобы извлечь данные проверки из указанных данных для обучения.
Для пользовательской свертки перекрестной проверки используйте cv_split_column_names
.
Дополнительные сведения приведены в статье Настройка разделения и перекрестной проверки данных в автоматизированном машинном обучении.
Значение по умолчанию — Нет.
Количество перекрестных проверок, выполняемых в случае, когда не указаны пользовательские данные проверки.
Укажите validation_data
для предоставления данных проверки, в противном случае задайте n_cross_validations
или validation_data_size
, чтобы извлечь данные проверки из указанных данных для обучения.
Для пользовательской свертки перекрестной проверки используйте cv_split_column_names
.
Дополнительные сведения приведены в статье Настройка разделения и перекрестной проверки данных в автоматизированном машинном обучении.
Значение по умолчанию — Нет.
Список имен столбцов, содержащих разделение пользовательской перекрестной проверки (CV). Каждый из столбцов с разделением CV представляет одно разделение CV, где каждая строка помечается 1 для обучения или 0 для проверки.
Значение по умолчанию — Нет.
- test_data
- Input
Признак тестирования модели, использующий тестовые наборы данных или фрагменты тестовых данных, находится на этапе предварительной версии и может быть изменен в любое время. Тестовые данные, которые будут использоваться для тестового запуска, выполняемого автоматически после завершения обучения модели. Тестовый запуск будет получать прогнозы с использованием оптимальной модели и будет вычислять метрики на их основе.
Если этот параметр или параметр test_data_size
не указаны, тестовый запуск не будет выполнен автоматически после завершения обучения модели.
Тестовые данные должны содержать признаки и столбец меток.
Если указан test_data
, должен быть также задан параметр target_column_name
.
Значение по умолчанию — Нет.
- test_data_size
- float
Признак тестирования модели, использующий тестовые наборы данных или фрагменты тестовых данных, находится на этапе предварительной версии и может быть изменен в любое время. Часть данных обучения, которую следует оставить в качестве тестовых данных для тестового запуска, выполняемого автоматически после завершения обучения модели. Тестовый запуск будет получать прогнозы с использованием оптимальной модели и будет вычислять метрики на их основе.
Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).
Если параметр test_data_size
указан одновременно с параметром validation_data_size
, тестовые данные выделяются из training_data
до выделения данных проверки.
Например, если validation_data_size=0.1
, test_data_size=0.1
и исходные данные обучения содержат 1000 строк, то тестовые данные будут содержать 100 строк, данные проверки — 90 строк, а данные обучения — 810 строк.
Для задач на основе регрессии используется случайная выборка. Для задач классификации используется стратифицированная выборка. В настоящее время прогнозирование не поддерживает указание тестового набора данных с помощью разделения данных для обучения/тестирования.
Если этот параметр или параметр test_data
не указаны, тестовый запуск не будет выполнен автоматически после завершения обучения модели.
Значение по умолчанию — Нет.
- forecasting_settings
- ForecastingSettings
Параметры задачи прогнозирования
Возвращаемое значение
Объект задания, который можно отправить в вычисление Машинного обучения Azure для выполнения.
Возвращаемый тип
image_classification
Создает объект для задания многоклассовой классификации изображений AutoML.
image_classification(*, training_data: Input, target_column_name: str, primary_metric: str | ClassificationPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageClassificationJob
Параметры
- training_data
- Input
Обучающие данные, которые будут использоваться в эксперименте.
- target_column_name
- str
Имя столбца меток.
Этот параметр применим к параметрам training_data
и validation_data
.
- primary_metric
Метрика, которую автоматизированное машинное обучение будет оптимизировать для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизировать. Дополнительные сведения о вычислении метрик приведены в https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Допустимые значения: точность, AUC_weighted, norm_macro_recall, average_precision_score_weighted и precision_score_weighted по умолчанию.
- validation_data
- Input
Данные проверки, которые будут использоваться в эксперименте.
- validation_data_size
- float
Часть данных, которую следует оставить для проверки, если пользовательские данные проверки не указаны. Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).
Укажите validation_data
для предоставления проверочных данных, в противном случае задайте для validation_data_size
извлечения проверочных данных из указанных обучающих данных.
Значение по умолчанию — .2
- kwargs
- dict
Словарь дополнительных параметров конфигурации.
Возвращаемое значение
Объект задания классификации изображений, который можно отправить в вычислительную среду Машинного обучения Azure для выполнения.
Возвращаемый тип
image_classification_multilabel
Создает объект для задания классификации изображений AutoML с несколькими метками.
image_classification_multilabel(*, training_data: Input, target_column_name: str, primary_metric: str | ClassificationMultilabelPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageClassificationMultilabelJob
Параметры
- training_data
- Input
Обучающие данные, которые будут использоваться в эксперименте.
- target_column_name
- str
Имя столбца меток.
Этот параметр применим к параметрам training_data
и validation_data
.
- primary_metric
Метрика, которую автоматизированное машинное обучение будет оптимизировать для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизировать. Дополнительные сведения о вычислении метрик приведены в https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Допустимые значения: точность, AUC_weighted, norm_macro_recall, average_precision_score_weighted, precision_score_weighted и Iou По умолчанию используется значение Iou.
- validation_data
- Input
Данные проверки, которые будут использоваться в эксперименте.
- validation_data_size
- float
Часть данных, которую следует оставить для проверки, если пользовательские данные проверки не указаны. Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).
Укажите validation_data
для предоставления проверочных данных, в противном случае — для validation_data_size
извлечения проверочных данных из указанных обучающих данных.
Значение по умолчанию — .2
- kwargs
- dict
Словарь дополнительных параметров конфигурации.
Возвращаемое значение
Изображение объекта задания классификации с несколькими метками, которое можно отправить в вычислительную среду Машинного обучения Azure для выполнения.
Возвращаемый тип
image_instance_segmentation
Создает объект для задания сегментации экземпляра образа AutoML.
image_instance_segmentation(*, training_data: Input, target_column_name: str, primary_metric: str | InstanceSegmentationPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageInstanceSegmentationJob
Параметры
- training_data
- Input
Обучающие данные, которые будут использоваться в эксперименте.
- target_column_name
- str
Имя столбца меток.
Этот параметр применим к параметрам training_data
и validation_data
.
- primary_metric
Метрика, которую автоматизированное машинное обучение будет оптимизировать для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизировать. Дополнительные сведения о вычислении метрик приведены в https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Допустимые значения: MeanAveragePrecision По умолчанию — MeanAveragePrecision.
- validation_data
- Input
Данные проверки, которые будут использоваться в эксперименте.
- validation_data_size
- float
Часть данных, которую следует оставить для проверки, если пользовательские данные проверки не указаны. Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).
Укажите validation_data
для предоставления проверочных данных, в противном случае — для validation_data_size
извлечения проверочных данных из указанных обучающих данных.
Значение по умолчанию — .2
- kwargs
- dict
Словарь дополнительных параметров конфигурации.
Возвращаемое значение
Задание сегментации экземпляра образа
Возвращаемый тип
image_object_detection
Создает объект для задания обнаружения объектов изображений AutoML.
image_object_detection(*, training_data: Input, target_column_name: str, primary_metric: str | ObjectDetectionPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageObjectDetectionJob
Параметры
- training_data
- Input
Обучающие данные, которые будут использоваться в эксперименте.
- target_column_name
- str
Имя столбца меток.
Этот параметр применим к параметрам training_data
и validation_data
.
- primary_metric
Метрика, которую автоматизированное машинное обучение будет оптимизировать для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизировать. Дополнительные сведения о вычислении метрик приведены в https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Допустимые значения: MeanAveragePrecision По умолчанию — MeanAveragePrecision.
- validation_data
- Input
Данные проверки, которые будут использоваться в эксперименте.
- validation_data_size
- float
Часть данных, которую следует оставить для проверки, если пользовательские данные проверки не указаны. Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).
Укажите validation_data
для предоставления проверочных данных, в противном случае — для validation_data_size
извлечения проверочных данных из указанных обучающих данных.
Значение по умолчанию — .2
- kwargs
- dict
Словарь дополнительных параметров конфигурации.
Возвращаемое значение
Объект задания обнаружения объектов изображений, который можно отправить в вычисление Машинного обучения Azure для выполнения.
Возвращаемый тип
regression
Функция для создания задания регрессии.
Задание регрессии используется для обучения модели прогнозированию непрерывных значений целевой переменной из набора данных. Различные модели обучаются с помощью обучающих данных. Модель с наилучшей производительностью данных проверки на основе основной метрики выбирается в качестве конечной модели.
regression(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, **kwargs) -> RegressionJob
Параметры
- training_data
- Input
Обучающие данные, которые будут использоваться в эксперименте. Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки).
- target_column_name
- str
Имя столбца меток.
Этот параметр применим к training_data
параметрам , validation_data
и test_data
- primary_metric
Метрика, которую автоматизированное машинное обучение будет оптимизировать для выбора модели. Автоматизированное машинное обучение собирает больше метрик, чем может оптимизировать. Дополнительные сведения о вычислении метрик приведены в https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Допустимые значения: spearman_correlation, r2_score, normalized_mean_absolute_error normalized_root_mean_squared_error. По умолчанию используется normalized_root_mean_squared_error
- enable_model_explainability
- bool
Следует ли включить объяснение оптимальной модели AutoML в конце всех итераций обучения AutoML. Значение по умолчанию — None. Дополнительные сведения см. в статье Интерпретируемость: объяснения модели в автоматизированном машинном обучении.
- weight_column_name
- str
Имя столбца с весом выборок. Автоматизированное машинное обучение поддерживает взвешенный столбец в качестве входных данных, и в результате вес строк данных меняется в большую или меньшую сторону. Если источником входных данных является pandas.DataFrame, где отсутствуют имена столбцов, вместо имен можно использовать индексы столбцов, выраженные в виде целых чисел.
Этот параметр применим к training_data
параметрам и validation_data
- validation_data
- Input
Данные проверки, которые будут использоваться в эксперименте. Они должны включать признаки обучения и столбец меток (необязательно — столбец весов выборки).
Значение по умолчанию — Нет.
- validation_data_size
- float
Часть данных, которую следует оставить для проверки, если пользовательские данные проверки не указаны. Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).
Укажите validation_data
для предоставления данных проверки, в противном случае задайте n_cross_validations
или validation_data_size
, чтобы извлечь данные проверки из указанных данных для обучения.
Для пользовательской свертки перекрестной проверки используйте cv_split_column_names
.
Дополнительные сведения приведены в статье Настройка разделения и перекрестной проверки данных в автоматизированном машинном обучении.
Значение по умолчанию — Нет.
Количество перекрестных проверок, выполняемых в случае, когда не указаны пользовательские данные проверки.
Укажите validation_data
для предоставления данных проверки, в противном случае задайте n_cross_validations
или validation_data_size
, чтобы извлечь данные проверки из указанных данных для обучения.
Для пользовательской свертки перекрестной проверки используйте cv_split_column_names
.
Дополнительные сведения приведены в статье Настройка разделения и перекрестной проверки данных в автоматизированном машинном обучении.
Значение по умолчанию — Нет.
Список имен столбцов, содержащих разделение пользовательской перекрестной проверки (CV). Каждый из столбцов с разделением CV представляет одно разделение CV, где каждая строка помечается 1 для обучения или 0 для проверки.
Значение по умолчанию — Нет.
- test_data
- Input
Признак тестирования модели, использующий тестовые наборы данных или фрагменты тестовых данных, находится на этапе предварительной версии и может быть изменен в любое время. Тестовые данные, которые будут использоваться для тестового запуска, выполняемого автоматически после завершения обучения модели. Тестовый запуск будет получать прогнозы с использованием оптимальной модели и будет вычислять метрики на их основе.
Если этот параметр или параметр test_data_size
не указаны, тестовый запуск не будет выполнен автоматически после завершения обучения модели.
Тестовые данные должны содержать признаки и столбец меток.
Если указан test_data
, должен быть также задан параметр target_column_name
.
Значение по умолчанию — Нет.
- test_data_size
- float
Признак тестирования модели, использующий тестовые наборы данных или фрагменты тестовых данных, находится на этапе предварительной версии и может быть изменен в любое время. Часть данных обучения, которую следует оставить в качестве тестовых данных для тестового запуска, выполняемого автоматически после завершения обучения модели. Тестовый запуск будет получать прогнозы с использованием оптимальной модели и будет вычислять метрики на их основе.
Это значение должно находиться в диапазоне от 0,0 до 1,0 (не включительно).
Если параметр test_data_size
указан одновременно с параметром validation_data_size
, тестовые данные выделяются из training_data
до выделения данных проверки.
Например, если validation_data_size=0.1
, test_data_size=0.1
и исходные данные обучения содержат 1000 строк, то тестовые данные будут содержать 100 строк, данные проверки — 90 строк, а данные обучения — 810 строк.
Для задач на основе регрессии используется случайная выборка. Для задач классификации используется стратифицированная выборка. В настоящее время прогнозирование не поддерживает указание тестового набора данных с помощью разделения данных для обучения/тестирования.
Если этот параметр или параметр test_data
не указаны, тестовый запуск не будет выполнен автоматически после завершения обучения модели.
Значение по умолчанию — Нет.
Возвращаемое значение
Объект задания, который можно отправить в вычислительную среду Машинного обучения Azure для выполнения.
Возвращаемый тип
text_classification
Функция для создания задания TextClassification.
Задание классификации текста используется для обучения модели, которая может прогнозировать класс или категорию текстовых данных. Входные обучающие данные должны включать целевой столбец, который классифицирует текст ровно в один класс.
text_classification(*, training_data: Input, target_column_name: str, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextClassificationJob
Параметры
- training_data
- Input
Обучающие данные, которые будут использоваться в эксперименте. Он должен содержать как обучающие функции, так и целевой столбец.
- target_column_name
- str
Имя целевого столбца.
- validation_data
- Input
Данные проверки, которые будут использоваться в эксперименте. Он должен содержать как обучающие функции, так и целевой столбец.
- primary_metric
- Union[str, ClassificationPrimaryMetrics]
Основная метрика для задачи. Допустимые значения: точность, AUC_weighted, precision_score_weighted
- log_verbosity
- str
Уровень детализации журнала.
- kwargs
- dict
Словарь дополнительных параметров конфигурации.
Возвращаемое значение
Объект TextClassificationJob.
Возвращаемый тип
text_classification_multilabel
Функция для создания задания TextClassificationMultilabel.
Задание классификации текста с несколькими меткой используется для обучения модели, которая может прогнозировать классы и категории текстовых данных. Входные обучающие данные должны включать целевой столбец, который классифицирует текст в классы. Дополнительные сведения о формате данных с несколькими меткой см. в: https://docs.microsoft.com/en-us/azure/machine-learning/how-to-auto-train-nlp-models#multi-label
text_classification_multilabel(*, training_data: Input, target_column_name: str, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextClassificationMultilabelJob
Параметры
- training_data
- Input
Обучающие данные, которые будут использоваться в эксперименте. Он должен содержать как обучающие функции, так и целевой столбец.
- target_column_name
- str
Имя целевого столбца.
- validation_data
- Input
Данные проверки, которые будут использоваться в эксперименте. Он должен содержать как обучающие функции, так и целевой столбец.
- primary_metric
- str
Основная метрика для задачи. Допустимые значения: точность
- log_verbosity
- str
Уровень детализации журнала.
- kwargs
- dict
Словарь дополнительных параметров конфигурации.
Возвращаемое значение
Объект TextClassificationMultilabelJob.
Возвращаемый тип
text_ner
Функция для создания задания TextNerJob.
Задание распознавания именованных сущностей текста используется для обучения модели, которая может прогнозировать именованные сущности в тексте. Входные обучающие данные должны быть текстовым файлом в формате CoNLL. Дополнительные сведения о формате текстовых данных NER см. в: https://docs.microsoft.com/en-us/azure/machine-learning/how-to-auto-train-nlp-models#named-entity-recognition-ner
text_ner(*, training_data: Input, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextNerJob
Параметры
- training_data
- Input
Обучающие данные, которые будут использоваться в эксперименте. Он должен содержать как обучающие функции, так и целевой столбец.
- validation_data
- Input
Данные проверки, которые будут использоваться в эксперименте. Он должен содержать как обучающие функции, так и целевой столбец.
- primary_metric
- str
Основная метрика для задачи. Допустимые значения: точность
- log_verbosity
- str
Уровень детализации журнала.
- kwargs
- dict
Словарь дополнительных параметров конфигурации.
Возвращаемое значение
Объект TextNerJob.
Возвращаемый тип
Azure SDK for Python