Plánování úloh importu dat (Preview)

PLATÍ PRO:Rozšíření Azure CLI ml v2 (aktuální)Python SDK azure-ai-ml v2 (aktuální)

V tomto článku se dozvíte, jak programově naplánovat import dat pomocí uživatelského rozhraní plánu. Plán můžete vytvořit na základě uplynulého času. Plány založené na čase můžou zpracovávat běžné úlohy – například pravidelné importy dat, aby byly aktuální. Jakmile se naučíte vytvářet plány, naučíte se načítat, aktualizovat a deaktivovat je prostřednictvím prostředků rozhraní příkazového řádku, sady SDK a studiových uživatelských rozhraní.

Požadavky

  • K používání služby Azure Machine Learning potřebujete předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet. Vyzkoušejte si bezplatnou nebo placenou verzi služby Azure Machine Learning ještě dnes.

Naplánovat import dat

Pokud chcete data importovat opakovaně, musíte vytvořit plán. Akce Schedule importu dat se přidruží k triggeru. Aktivační událost může být cronbuď , která používá výraz cron k popisu zpoždění mezi spuštěními, nebo , recurrencekterý určuje frekvenci aktivace úlohy. V každém případě musíte nejprve vytvořit definici importovaných dat. Pro tento postup funguje existující import dat nebo import dat, který je definovaný vložený. Další informace najdete v tématu Vytvoření importu dat v rozhraní příkazového řádku, sadě SDK a uživatelském rozhraní.

Vytvoření plánu

Vytvoření časového plánu s opakováním

PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)

YAML: Plán importu dat se vzorem opakování

$schema: https://azuremlschemas.azureedge.net/latest/schedule.schema.json
name: simple_recurrence_import_schedule
display_name: Simple recurrence import schedule
description: a simple hourly recurrence import schedule

trigger:
  type: recurrence
  frequency: day #can be minute, hour, day, week, month
  interval: 1 #every day
  schedule:
    hours: [4,5,10,11,12]
    minutes: [0,30]
  start_time: "2022-07-10T10:00:00" # optional - default will be schedule creation time
  time_zone: "Pacific Standard Time" # optional - default will be UTC

import_data: ./my-snowflake-import-data.yaml

YAML: Naplánování vložené definice importu dat se vzorem opakování ve spravovaném úložišti dat

$schema: https://azuremlschemas.azureedge.net/latest/schedule.schema.json
name: inline_recurrence_import_schedule
display_name: Inline recurrence import schedule
description: an inline hourly recurrence import schedule

trigger:
  type: recurrence
  frequency: day #can be minute, hour, day, week, month
  interval: 1 #every day
  schedule:
    hours: [4,5,10,11,12]
    minutes: [0,30]
  start_time: "2022-07-10T10:00:00" # optional - default will be schedule creation time
  time_zone: "Pacific Standard Time" # optional - default will be UTC

import_data:
  type: mltable
  name: my_snowflake_ds
  path: azureml://datastores/workspacemanagedstore
  source:
    type: database
    query: select * from TPCH_SF1.REGION
    connection: azureml:my_snowflake_connection

A trigger obsahuje tyto vlastnosti:

  • (Povinné) type určuje typ plánu, buď recurrence nebo cron. Další informace najdete v následující části.

Pak v rozhraní příkazového řádku spusťte tento příkaz:

> az ml schedule create -f <file-name>.yml

Poznámka:

Tyto vlastnosti platí pro rozhraní příkazového řádku a sadu SDK:

  • (Povinné) frequency určuje jednotku času, která popisuje, jak často se plán aktivuje. Může obsahovat hodnoty.

    • minute
    • hour
    • day
    • week
    • month
  • (Povinné) interval určuje, jak často se plán aktivuje na základě frekvence, což je počet časových jednotek, které mají čekat, dokud se plán znovu neaktivuje.

  • (Volitelné) schedule definuje způsob opakování, který obsahuje hoursminutes, a weekdays.

    • Když frequency se rovná day, vzor může určit hours a minutes.
    • Když frequency se rovná week a month, vzor může určit hours, minutes a weekdays.
    • hours musí být celé číslo nebo seznam v rozsahu od 0 do 23.
    • minutes by mělo být celé číslo nebo seznam v rozsahu od 0 do 59.
    • weekdaysřetězec nebo seznam v rozsahu od monday .sunday
    • Pokud schedule je vynechán, úlohy se aktivují podle logiky start_timefrequency a interval.
  • (Volitelné) start_time popisuje počáteční datum a čas s časovým pásmem. Pokud start_time tuto hodnotu vynecháte, start_time se rovná času vytvoření úlohy. V případě času spuštění v minulosti se první úloha spustí při příštím počítaném čase běhu.

  • (Volitelné) end_time popisuje koncové datum a čas s časovým pásmem. Pokud end_time tento plán vynecháte, bude plán nadále spouštět úlohy, dokud se plán ručně nezablokuje.

  • (Volitelné) time_zone určuje časové pásmo opakování. Pokud tento parametr vynecháte, výchozí časové pásmo je UTC. Další informace o hodnotách časového pásma naleznete v dodatku k hodnotám časového pásma.

Vytvoření časového plánu pomocí výrazu cron

YAML: Naplánování importu dat pomocí výrazu cron

PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)

YAML: Naplánování importu dat pomocí výrazu cron (Preview)

$schema: https://azuremlschemas.azureedge.net/latest/schedule.schema.json
name: simple_cron_import_schedule
display_name: Simple cron import schedule
description: a simple hourly cron import schedule

trigger:
  type: cron
  expression: "0 * * * *"
  start_time: "2022-07-10T10:00:00" # optional - default will be schedule creation time
  time_zone: "Pacific Standard Time" # optional - default will be UTC

import_data: ./my-snowflake-import-data.yaml

YAML: Plán definice importu dat vložený s výrazem cron (Preview)

$schema: https://azuremlschemas.azureedge.net/latest/schedule.schema.json
name: inline_cron_import_schedule
display_name: Inline cron import schedule
description: an inline hourly cron import schedule

trigger:
  type: cron
  expression: "0 * * * *"
  start_time: "2022-07-10T10:00:00" # optional - default will be schedule creation time
  time_zone: "Pacific Standard Time" # optional - default will be UTC

import_data:
  type: mltable
  name: my_snowflake_ds
  path: azureml://datastores/workspaceblobstore/paths/snowflake/${{name}}
  source:
    type: database
    query: select * from TPCH_SF1.REGION
    connection: azureml:my_snowflake_connection

Oddíl trigger definuje podrobnosti plánu a obsahuje tyto vlastnosti:

  • (Povinné) type určuje cron typ plánu.
> az ml schedule create -f <file-name>.yml

Seznam pokračuje tady:

  • (Povinné) expression používá standardní výraz crontab k vyjádření opakujícího se plánu. Jeden výraz se skládá z pěti polí oddělených mezerami:

    MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK

    • Jeden zástupný znak (*), který pokrývá všechny hodnoty pole. A *, ve dnech, znamená všechny dny v měsíci (které se liší podle měsíce a roku).

    • Výše expression: "15 16 * * 1" uvedený vzorek znamená každou pondělí 16:15.

    • Tato tabulka uvádí platné hodnoty pro každé pole:

      Pole Rozsah Komentář
      MINUTES 0-59 -
      HOURS 0-23 -
      DAYS - Nepodporováno Hodnota je ignorována a považována za *.
      MONTHS - Nepodporováno Hodnota je ignorována a považována za *.
      DAYS-OF-WEEK 0-6 Nula (0) znamená neděli. Byly přijaty také názvy dnů.
    • Další informace o výrazech crontab najdete v prostředku wikiwebu Crontab Expression na GitHubu.

    Důležité

    DAYS a MONTH nejsou podporovány. Pokud předáte jednu z těchto hodnot, bude ignorována a považována za *.

  • (Volitelné) start_time určuje počáteční datum a čas s časovým pásmem plánu. Například znamená, start_time: "2022-05-10T10:15:00-04:00" že plán začíná od 10:15:00 do 10.2022-05-10 v časovém pásmu UTC-4. Pokud start_time tento parametr vynecháte, start_time rovná se času vytvoření plánu. V případě času spuštění v minulosti se první úloha spustí při příštím počítaném čase běhu.

  • (Volitelné) end_time popisuje koncové datum a čas s časovým pásmem. Pokud end_time tento plán vynecháte, bude plán nadále spouštět úlohy, dokud se plán ručně nezablokuje.

  • (Volitelné) time_zoneurčuje časové pásmo výrazu. Pokud time_zone je vynecháno, časové pásmo je ve výchozím nastavení UTC. Další informace o hodnotách časového pásma naleznete v dodatku k hodnotám časového pásma.

Omezení:

  • Plánování služby Azure Machine Learning v2 v současné době nepodporuje triggery založené na událostech.
  • Pomocí sady Azure Machine Learning SDK/CLI v2 určete složitý způsob opakování, který obsahuje více časových razítek aktivačních událostí. Uživatelské rozhraní zobrazuje jenom složitý vzor a nepodporuje úpravy.
  • Pokud nastavíte opakování jako 31. den každého měsíce, plán neaktivuje úlohy v měsících s méně než 31 dny.

Výpis plánů v pracovním prostoru

PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)

az ml schedule list

Kontrola podrobností plánu

PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)

az ml schedule show -n simple_cron_data_import_schedule

Aktualizace plánu

PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)

az ml schedule update -n simple_cron_data_import_schedule  --set description="new description" --no-wait

Poznámka:

Pokud chcete aktualizovat více než jen značky nebo popis, doporučujeme použít az ml schedule create --file update_schedule.yml

Zakázání plánu

PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)

az ml schedule disable -n simple_cron_data_import_schedule --no-wait

Povolení plánu

PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)

az ml schedule enable -n simple_cron_data_import_schedule --no-wait

Odstranění plánu

Důležité

Před odstraněním musí být zakázán plán. Odstranění je trvalá neopravitelná akce. Po odstranění plánu se k němu nikdy nedostanete ani ho neobnovíte.

PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)

az ml schedule delete -n simple_cron_data_import_schedule

Podpora řízení přístupu na základě role (RBAC)

Plány se obvykle používají pro produkční prostředí. Aby se zabránilo problémům, můžou správci pracovního prostoru chtít omezit oprávnění k vytváření plánů a správě v rámci pracovního prostoru.

V současné době existují tři pravidla akcí související s plány a můžete je nakonfigurovat na webu Azure Portal. Další informace najdete v tématu správa přístupu k pracovnímu prostoru Azure Machine Learning.

Akce Popis Pravidlo
Čteno Získání a výpis plánů v pracovním prostoru Machine Learning Microsoft.MachineLearningServices/workspaces/schedules/read
Write Vytváření, aktualizace, zakázání a povolení plánů v pracovním prostoru Machine Learning Microsoft.MachineLearningServices/workspaces/schedules/write
Odstranění Odstranění plánu v pracovním prostoru Machine Learning Microsoft.MachineLearningServices/workspaces/schedules/delete

Další kroky