Che cos'è un'istanza di calcolo di Azure Machine Learning?
Un'istanza di ambiente di calcolo di Azure Machine Learning è una workstation basata su cloud completamente gestita per i data scientist. Ogni istanza di ambiente di calcolo ha un solo proprietario, anche se è possibile condividere file tra più istanze di ambiente di calcolo.
Le istanze di ambiente calcolo semplificano l'avvio dello sviluppo di Azure Machine Learning e offrono funzionalità di gestione e amministrazione aziendali agli amministratori IT.
Usare un'istanza di ambiente calcolo come ambiente di sviluppo completamente configurato e gestito nel cloud per l'apprendimento automatico. Possono essere usate anche come destinazione di calcolo per il training e l'inferenza per finalità di sviluppo e test.
Per il corretto funzionamento della funzione Jupyter dell'istanza di ambiente di calcolo, assicurarsi che la comunicazione con il Web socket non sia disabilitata. Assicurarsi che la rete consenta le connessioni websocket a *.instances.azureml.net e *.instances.azureml.ms.
Importante
Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. La versione di anteprima viene messa a disposizione senza contratto di servizio e non è consigliata per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.
Perché usare un'istanza di calcolo?
Un'istanza di ambiente calcolo è una workstation basata su cloud completamente gestita, ottimizzata per l'ambiente di sviluppo di apprendimento automatico. Sono disponibili i seguenti benefit:
Vantaggi chiave | Descrizione |
---|---|
Produttività | È possibile compilare e distribuire modelli usando notebook integrati e gli strumenti seguenti in studio di Azure Machine Learning: - Jupyter - JupyterLab - VS Code (anteprima) L'istanza di ambiente calcolo è completamente integrata con l'area di lavoro e lo studio di Azure Machine Learning. È possibile condividere notebook e dati con altri data scientist nell'area di lavoro. |
Gestione e sicurezza | Riduzione del footprint per la sicurezza e aggiunta di conformità ai requisiti di sicurezza aziendali. Le istanze di calcolo offrono criteri di gestione affidabili e configurazioni di rete sicure, ad esempio: - Provisioning automatico da modelli di Resource Manager o di Azure Machine Learning SDK - Controllo degli accessi in base al ruolo di Azure - Supporto della rete virtuale - Criteri di Azure per disabilitare l'accesso SSH - Criteri di Azure per applicare la creazione in una rete virtuale - Arresto automatico/avvio automatico in base alla pianificazione - TLS 1.2 abilitato |
Preconfigurato per ML | Risparmiare tempo per le attività di installazione con pacchetti ml preconfigurati e aggiornati, framework di Deep Learning, driver GPU. |
Personalizzazione completa | Ampio supporto per i tipi di macchine virtuali di Azure, tra cui GPU e personalizzazione di basso livello persistente, come l'installazione di pacchetti e driver, che semplifica gli scenari avanzati. È anche possibile usare gli script di installazione per automatizzare la personalizzazione |
- Proteggere l'istanza di ambiente di calcolo senza un indirizzo IP pubblico.
- L'istanza di ambiente di calcolo è anche una destinazione di calcolo di training sicura simile ai cluster di elaborazione, ma è un singolo nodo.
- È possibile creare manualmente un'istanza di ambiente di calcolo oppure un amministratore può creare un'istanza di ambiente di calcolo per conto dell'utente.
- È possibile anche usare uno script di configurazione per personalizzare e configurare in automatico l'istanza di ambiente di calcolo secondo necessità.
- Per risparmiare sui costi, creare una pianificazione per avviare e arrestare automaticamente l'istanza di ambiente di calcolo o abilitare l'arresto per inattività
Strumenti e ambienti
L'istanza di calcolo di Azure Machine Learning consente di creare, eseguire il training e distribuire modelli in un'esperienza di notebook completamente integrata nell'area di lavoro.
È possibile eseguire notebook dall'area di lavoro di Azure Machine Learning, Jupyter, JupyterLabo Visual Studio Code. VS Code Desktop può essere configurato per accedere all'istanza di ambiente di calcolo. In alternativa, usare VS Code per il Web, direttamente dal browser e senza installazioni o dipendenze necessarie.
È consigliabile provare VS Code per il Web per sfruttare l'ambiente di sviluppo avanzato e di integrazione semplice che offre. VS Code per il Web offre molte delle funzionalità di VS Code Desktop più apprezzate, tra cui l'evidenziazione della ricerca e della sintassi durante la navigazione e la modifica. Per altre informazioni sull'uso di VS Code Desktop e VS Code per il Web, vedere Avviare Visual Studio Code integrato con Azure Machine Learning (anteprima) e Lavorare in VS Code da remoto con connessione a un'istanza di ambiente di calcolo (anteprima).
È possibile installare pacchetti e aggiungere kernel all'istanza di ambiente di calcolo.
Gli strumenti e gli ambienti seguenti sono già installati nell'istanza di ambiente di calcolo:
Strumenti generali e ambienti | Dettagli |
---|---|
Driver | CUDA cuDNN NVIDIA Blob FUSE |
Intel MPI library | |
Interfaccia della riga di comando di Azure | |
Esempi di Azure Machine Learning | |
Docker | |
Nginx | |
NCCL 2.0 | |
Protobuf |
Strumenti e ambienti R | Dettagli |
---|---|
Kernel R |
È possibile aggiungere RStudio o Posit Workbench (in precedenza RStudio Workbench) quando si crea l'istanza.
Strumenti e ambienti PYTHON | Dettagli |
---|---|
Anaconda Python | |
Jupyter ed estensioni | |
Jupyterlab ed estensioni | |
SDK di Azure Machine Learning per Python da PyPI |
Include azure-ai-ml e molti pacchetti aggiuntivi comuni di Azure. Per visualizzare l'elenco completo, aprire una finestra del terminale nell'istanza di ambiente di calcolo ed eseguire conda list -n azureml_py310_sdkv2 ^azure |
Altri pacchetti PyPI | jupytext tensorboard nbconvert notebook Pillow |
Pacchetti Conda | cython numpy ipykernel scikit-learn matplotlib tqdm joblib nodejs |
Pacchetti Deep Learning | PyTorch TensorFlow Keras Horovod MLFlow pandas-ml scrapbook |
Pacchetti ONNX | keras2onnx onnx onnxconverter-common skl2onnx onnxmltools |
Campioni di Python di Azure Machine Learning |
Il sistema operativo di base dell'istanza di ambiente di calcolo è Ubuntu.
Accesso ai file
I notebook e gli script Python vengono archiviati nell'account di archiviazione predefinito dell'area di lavoro nella condivisione file di Azure. Tali file si trovano nella directory ''File dell'utente''. Questo tipo di archiviazione semplifica la condivisione di notebook tra le istanze di calcolo. L'account di archiviazione consente inoltre di mantenere i notebook in modo sicuro quando si arresta o si elimina un'istanza di calcolo.
L'account di condivisione file di Azure dell'area di lavoro viene montato come unità nell'istanza di calcolo. Questa unità è la directory di lavoro predefinita per Jupyter, Jupyter Labs, RStudio e Posit Workbench. Ciò significa che i notebook e gli altri file creati in Jupyter, JupyterLab, VS Code per Web, RStudio o Posit vengono archiviati automaticamente nella condivisione file e sono disponibili per l'uso anche in altre istanze di ambiente di calcolo.
I file nella condivisione file sono accessibili da tutte le istanze di calcolo presenti nella stessa area di lavoro. Tutte le modifiche apportate a questi file nell'istanza di calcolo vengono mantenute in modo affidabile nella condivisione file.
È anche possibile clonare gli ultimi esempi di Azure Machine Learning nella cartella della directory dei file utente nella condivisione file dell'area di lavoro.
La scrittura di file di piccole dimensioni può essere più lenta nelle unità di rete rispetto alla scrittura nel disco locale dell'istanza di ambiente di calcolo stessa. Se si scrivono molti file di piccole dimensioni, provare a usare una directory direttamente nell'istanza di ambiente di calcolo, ad esempio una directory /tmp
. I file di nota nell'istanza di calcolo non sono accessibili da altre istanze di calcolo.
Non archiviare i dati di training nella condivisione file dei notebook. Per informazioni sulle varie opzioni per archiviare i dati, vedere Accedere ai dati in un processo.
È possibile usare la directory /tmp
nell'istanza di calcolo per i dati temporanei. Tuttavia, non scrivere file di grandi dimensioni di dati nel disco del sistema operativo dell'istanza di calcolo. Il disco del sistema operativo nell'istanza di ambiente di calcolo ha una capacità di 120 GB. È anche possibile archiviare i dati di training temporanei su disco temporaneo montato in /mnt. Le dimensioni temporanee del disco si basano sulle dimensioni della macchina virtuale scelte e possono archiviare quantità maggiori di dati se viene scelta una macchina virtuale di dimensioni superiori. Tutti i pacchetti software installati vengono salvati nel disco del sistema operativo dell'istanza di calcolo. Si noti che la crittografia della chiave gestita dal cliente non è attualmente supportata per il disco del sistema operativo. Il disco del sistema operativo per l'istanza di calcolo viene crittografato con chiavi gestite da Microsoft.
È anche possibile montare archivi dati e set di dati.
Creazione
Seguire la procedura descritta in Creare le risorse necessarie per iniziare per creare un'istanza di ambiente di calcolo di base.
Per altre opzioni, vedere Creare una nuova istanza di ambiente di calcolo.
Gli amministratori possono creare un'istanza di ambiente di calcolo per altri utenti nell'area di lavoro. L’accesso Single Sign-On deve essere disabilitato per un'istanza di ambiente calcolo di questo tipo.
È possibile anche usare uno script di configurazione per personalizzare e configurare in automatico l'istanza di ambiente calcolo.
Altri modi per creare un'istanza di ambiente di calcolo:
- Direttamente dall'esperienza dei notebook integrati.
- Dal modello di Azure Resource Manager. Per un modello di esempio, vedere creare un modello di istanza di ambiente di calcolo di Azure Machine Learning.
- Con Azure Machine Learning SDK
- Dall'estensione dell'interfaccia della riga di comando di Azure Machine Learning
I core dedicati per area e per quota di famiglia di macchine virtuali e quota totale a livello di area, che si applica alla creazione del cluster di istanze di ambiente di calcolo, è unificata e condivisa con la quota del cluster di elaborazione del training di Azure Machine Learning. L'arresto dell'istanza di ambiente di calcolo non rilascia la quota per assicurarsi di poter riavviare la suddetta. Non arrestare l'istanza di ambiente di calcolo tramite il terminale del sistema operativo eseguendo un arresto sudo.
L'istanza di calcolo include il disco del sistema operativo P10. Il tipo di disco temporaneo dipende dalle dimensioni della macchina virtuale scelte. Attualmente, non è possibile modificare il tipo di disco del sistema operativo.
Destinazione del calcolo
Le istanze di calcolo possono essere usate come una destinazione di calcolo di training simile ai cluster di training di elaborazione di Azure Machine Learning. Tuttavia, un'istanza di calcolo ha un solo nodo, mentre un cluster di elaborazione può avere più nodi.
Un'istanza di ambiente di calcolo:
- Ha una coda di processi.
- Esegue i processi in modo sicuro in un ambiente di rete virtuale senza richiedere alle aziende di aprire porte SSH. Il processo viene eseguito in un ambiente containerizzato, con la creazione di un pacchetto delle dipendenze del modello in un contenitore Docker.
- Può eseguire più processi di piccole dimensioni in parallelo. Un processo per vCPU può essere eseguito in parallelo mentre il resto dei processi viene aggiunto alla coda.
- Supporta processi di training distribuiti su più GPU a nodo singolo
È possibile usare l'istanza di ambiente di calcolo come destinazione di distribuzione di inferenza locale per gli scenari di test/debug.
Suggerimento
L'istanza di ambiente di calcolo ha un disco del sistema operativo da 120 GB. Se lo spazio su disco è insufficiente e si entra in uno stato inutilizzabile, cancellare almeno 5 GB di spazio su disco nell'istanza di ambiente di calcolo del sistema operativo (montato su /) tramite il terminale dell'istanza di ambiente di calcolo rimuovendo file/cartelle, quindi eseguire l'operazione sudo reboot
. Lo spazio su disco temporaneo verrà liberato dopo un riavvio; non è necessario cancellare lo spazio sul disco temporaneo manualmente. Per accedere al terminale, passare alla pagina di elenco di calcolo o alla pagina dei dettagli dell'istanza di ambiente di calcolo e selezionare il collegamento Terminale. È possibile controllare lo spazio disponibile su disco eseguendo df -h
nel terminale. Cancellare almeno 5 GB di spazio prima di eseguire sudo reboot
. Non arrestare o riavviare l'istanza di ambiente di calcolo tramite Studio fino a quando non sono stati liberati 5 GB di spazio su disco. Gli arresti automatici, inclusi l'avvio pianificato o l'arresto, nonché gli arresti inattivi, non funzioneranno se il disco dell'istanza di ambiente di calcolo è pieno.
Contenuto correlato
- Creare le risorse necessarie per iniziare.
- Esercitazione: Eseguire il training del primo modello di ML illustra come usare un'istanza di ambiente di calcolo con un notebook integrato.