Plánování úloh importu dat (Preview)
PLATÍ PRO:Rozšíření Azure CLI ml v2 (aktuální)Python SDK azure-ai-ml v2 (aktuální)
V tomto článku se dozvíte, jak programově naplánovat import dat pomocí uživatelského rozhraní plánu. Plán můžete vytvořit na základě uplynulého času. Plány založené na čase můžou zpracovávat běžné úlohy – například pravidelné importy dat, aby byly aktuální. Jakmile se naučíte vytvářet plány, naučíte se načítat, aktualizovat a deaktivovat je prostřednictvím prostředků rozhraní příkazového řádku, sady SDK a studiových uživatelských rozhraní.
Požadavky
- K používání služby Azure Machine Learning potřebujete předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet. Vyzkoušejte si bezplatnou nebo placenou verzi služby Azure Machine Learning ještě dnes.
Nainstalujte Azure CLI a
ml
rozšíření. Postupujte podle pokynů k instalaci v části Instalace, nastavení a používání rozhraní příkazového řádku (v2).Pokud ho nemáte, vytvořte pracovní prostor Azure Machine Learning. Informace o vytvoření pracovního prostoru najdete v tématu Instalace, nastavení a použití rozhraní příkazového řádku (v2).
Naplánovat import dat
Pokud chcete data importovat opakovaně, musíte vytvořit plán. Akce Schedule
importu dat se přidruží k triggeru. Aktivační událost může být cron
buď , která používá výraz cron k popisu zpoždění mezi spuštěními, nebo , recurrence
který určuje frekvenci aktivace úlohy. V každém případě musíte nejprve vytvořit definici importovaných dat. Pro tento postup funguje existující import dat nebo import dat, který je definovaný vložený. Další informace najdete v tématu Vytvoření importu dat v rozhraní příkazového řádku, sadě SDK a uživatelském rozhraní.
Vytvoření plánu
Vytvoření časového plánu s opakováním
PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)
YAML: Plán importu dat se vzorem opakování
$schema: https://azuremlschemas.azureedge.net/latest/schedule.schema.json
name: simple_recurrence_import_schedule
display_name: Simple recurrence import schedule
description: a simple hourly recurrence import schedule
trigger:
type: recurrence
frequency: day #can be minute, hour, day, week, month
interval: 1 #every day
schedule:
hours: [4,5,10,11,12]
minutes: [0,30]
start_time: "2022-07-10T10:00:00" # optional - default will be schedule creation time
time_zone: "Pacific Standard Time" # optional - default will be UTC
import_data: ./my-snowflake-import-data.yaml
YAML: Naplánování vložené definice importu dat se vzorem opakování ve spravovaném úložišti dat
$schema: https://azuremlschemas.azureedge.net/latest/schedule.schema.json
name: inline_recurrence_import_schedule
display_name: Inline recurrence import schedule
description: an inline hourly recurrence import schedule
trigger:
type: recurrence
frequency: day #can be minute, hour, day, week, month
interval: 1 #every day
schedule:
hours: [4,5,10,11,12]
minutes: [0,30]
start_time: "2022-07-10T10:00:00" # optional - default will be schedule creation time
time_zone: "Pacific Standard Time" # optional - default will be UTC
import_data:
type: mltable
name: my_snowflake_ds
path: azureml://datastores/workspacemanagedstore
source:
type: database
query: select * from TPCH_SF1.REGION
connection: azureml:my_snowflake_connection
A trigger
obsahuje tyto vlastnosti:
- (Povinné)
type
určuje typ plánu, buďrecurrence
nebocron
. Další informace najdete v následující části.
Pak v rozhraní příkazového řádku spusťte tento příkaz:
> az ml schedule create -f <file-name>.yml
Poznámka:
Tyto vlastnosti platí pro rozhraní příkazového řádku a sadu SDK:
(Povinné)
frequency
určuje jednotku času, která popisuje, jak často se plán aktivuje. Může obsahovat hodnoty.minute
hour
day
week
month
(Povinné)
interval
určuje, jak často se plán aktivuje na základě frekvence, což je počet časových jednotek, které mají čekat, dokud se plán znovu neaktivuje.(Volitelné)
schedule
definuje způsob opakování, který obsahujehours
minutes
, aweekdays
.- Když
frequency
se rovnáday
, vzor může určithours
aminutes
. - Když
frequency
se rovnáweek
amonth
, vzor může určithours
,minutes
aweekdays
. hours
musí být celé číslo nebo seznam v rozsahu od 0 do 23.minutes
by mělo být celé číslo nebo seznam v rozsahu od 0 do 59.weekdays
řetězec nebo seznam v rozsahu odmonday
.sunday
- Pokud
schedule
je vynechán, úlohy se aktivují podle logikystart_time
frequency
ainterval
.
- Když
(Volitelné)
start_time
popisuje počáteční datum a čas s časovým pásmem. Pokudstart_time
tuto hodnotu vynecháte, start_time se rovná času vytvoření úlohy. V případě času spuštění v minulosti se první úloha spustí při příštím počítaném čase běhu.(Volitelné)
end_time
popisuje koncové datum a čas s časovým pásmem. Pokudend_time
tento plán vynecháte, bude plán nadále spouštět úlohy, dokud se plán ručně nezablokuje.(Volitelné)
time_zone
určuje časové pásmo opakování. Pokud tento parametr vynecháte, výchozí časové pásmo je UTC. Další informace o hodnotách časového pásma naleznete v dodatku k hodnotám časového pásma.
Vytvoření časového plánu pomocí výrazu cron
YAML: Naplánování importu dat pomocí výrazu cron
PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)
YAML: Naplánování importu dat pomocí výrazu cron (Preview)
$schema: https://azuremlschemas.azureedge.net/latest/schedule.schema.json
name: simple_cron_import_schedule
display_name: Simple cron import schedule
description: a simple hourly cron import schedule
trigger:
type: cron
expression: "0 * * * *"
start_time: "2022-07-10T10:00:00" # optional - default will be schedule creation time
time_zone: "Pacific Standard Time" # optional - default will be UTC
import_data: ./my-snowflake-import-data.yaml
YAML: Plán definice importu dat vložený s výrazem cron (Preview)
$schema: https://azuremlschemas.azureedge.net/latest/schedule.schema.json
name: inline_cron_import_schedule
display_name: Inline cron import schedule
description: an inline hourly cron import schedule
trigger:
type: cron
expression: "0 * * * *"
start_time: "2022-07-10T10:00:00" # optional - default will be schedule creation time
time_zone: "Pacific Standard Time" # optional - default will be UTC
import_data:
type: mltable
name: my_snowflake_ds
path: azureml://datastores/workspaceblobstore/paths/snowflake/${{name}}
source:
type: database
query: select * from TPCH_SF1.REGION
connection: azureml:my_snowflake_connection
Oddíl trigger
definuje podrobnosti plánu a obsahuje tyto vlastnosti:
- (Povinné)
type
určujecron
typ plánu.
> az ml schedule create -f <file-name>.yml
Seznam pokračuje tady:
(Povinné)
expression
používá standardní výraz crontab k vyjádření opakujícího se plánu. Jeden výraz se skládá z pěti polí oddělených mezerami:MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK
Jeden zástupný znak (
*
), který pokrývá všechny hodnoty pole. A*
, ve dnech, znamená všechny dny v měsíci (které se liší podle měsíce a roku).Výše
expression: "15 16 * * 1"
uvedený vzorek znamená každou pondělí 16:15.Tato tabulka uvádí platné hodnoty pro každé pole:
Pole Rozsah Komentář MINUTES
0-59 - HOURS
0-23 - DAYS
- Nepodporováno Hodnota je ignorována a považována za *
.MONTHS
- Nepodporováno Hodnota je ignorována a považována za *
.DAYS-OF-WEEK
0-6 Nula (0) znamená neděli. Byly přijaty také názvy dnů. Další informace o výrazech crontab najdete v prostředku wikiwebu Crontab Expression na GitHubu.
Důležité
DAYS
aMONTH
nejsou podporovány. Pokud předáte jednu z těchto hodnot, bude ignorována a považována za*
.(Volitelné)
start_time
určuje počáteční datum a čas s časovým pásmem plánu. Například znamená,start_time: "2022-05-10T10:15:00-04:00"
že plán začíná od 10:15:00 do 10.2022-05-10 v časovém pásmu UTC-4. Pokudstart_time
tento parametr vynecháte,start_time
rovná se času vytvoření plánu. V případě času spuštění v minulosti se první úloha spustí při příštím počítaném čase běhu.(Volitelné)
end_time
popisuje koncové datum a čas s časovým pásmem. Pokudend_time
tento plán vynecháte, bude plán nadále spouštět úlohy, dokud se plán ručně nezablokuje.(Volitelné)
time_zone
určuje časové pásmo výrazu. Pokudtime_zone
je vynecháno, časové pásmo je ve výchozím nastavení UTC. Další informace o hodnotách časového pásma naleznete v dodatku k hodnotám časového pásma.
Omezení:
- Plánování služby Azure Machine Learning v2 v současné době nepodporuje triggery založené na událostech.
- Pomocí sady Azure Machine Learning SDK/CLI v2 určete složitý způsob opakování, který obsahuje více časových razítek aktivačních událostí. Uživatelské rozhraní zobrazuje jenom složitý vzor a nepodporuje úpravy.
- Pokud nastavíte opakování jako 31. den každého měsíce, plán neaktivuje úlohy v měsících s méně než 31 dny.
Výpis plánů v pracovním prostoru
PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)
az ml schedule list
Kontrola podrobností plánu
PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)
az ml schedule show -n simple_cron_data_import_schedule
Aktualizace plánu
PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)
az ml schedule update -n simple_cron_data_import_schedule --set description="new description" --no-wait
Poznámka:
Pokud chcete aktualizovat více než jen značky nebo popis, doporučujeme použít az ml schedule create --file update_schedule.yml
Zakázání plánu
PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)
az ml schedule disable -n simple_cron_data_import_schedule --no-wait
Povolení plánu
PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)
az ml schedule enable -n simple_cron_data_import_schedule --no-wait
Odstranění plánu
Důležité
Před odstraněním musí být zakázán plán. Odstranění je trvalá neopravitelná akce. Po odstranění plánu se k němu nikdy nedostanete ani ho neobnovíte.
PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)
az ml schedule delete -n simple_cron_data_import_schedule
Podpora řízení přístupu na základě role (RBAC)
Plány se obvykle používají pro produkční prostředí. Aby se zabránilo problémům, můžou správci pracovního prostoru chtít omezit oprávnění k vytváření plánů a správě v rámci pracovního prostoru.
V současné době existují tři pravidla akcí související s plány a můžete je nakonfigurovat na webu Azure Portal. Další informace najdete v tématu správa přístupu k pracovnímu prostoru Azure Machine Learning.
Akce | Popis | Pravidlo |
---|---|---|
Čteno | Získání a výpis plánů v pracovním prostoru Machine Learning | Microsoft.MachineLearningServices/workspaces/schedules/read |
Write | Vytváření, aktualizace, zakázání a povolení plánů v pracovním prostoru Machine Learning | Microsoft.MachineLearningServices/workspaces/schedules/write |
Odstranění | Odstranění plánu v pracovním prostoru Machine Learning | Microsoft.MachineLearningServices/workspaces/schedules/delete |
Další kroky
- Přečtěte si další informace o schématu YAML plánu importu dat CLI (v2).
- Zjistěte, jak spravovat importované datové prostředky.