Cos'è la Azure Data Science Virtual Machine per Linux e Windows?

La data science virtual machine (DSVM) è un'immagine di macchina virtuale personalizzata disponibile nella piattaforma cloud di Azure e può gestire l'analisi scientifica dei dati. Include diversi strumenti comuni e strumenti preinstallati e preconfigurati per data science per implementare rapidamente la creazione di applicazioni intelligenti per l'analisi avanzata.

Data Science Virtual Machine è disponibile in:

  • Windows Server 2019
  • Windows Server 2022
  • Ubuntu 20.04 LTS

È anche disponibile una DSVM di Azure per PyTorch, un'immagine Ubuntu 20.04 di Azure Marketplace ottimizzata per carichi di lavoro di Deep Learning distribuiti di grandi dimensioni. Questa DSVM preinstallata viene convalidata con la versione più recente di PyTorch, per ridurre i costi di installazione e accelerare il time-to-value. Viene fornito in pacchetto con varie funzionalità di ottimizzazione:

  • Runtime ONNX
  • DeepSpeed​
  • MSCCL​
  • ORTMoE​
  • Fairscale​
  • Nvidia Apex​
  • Stack aggiornato con le versioni compatibili più recenti di Ubuntu, Python, PyTorch e CUDA

Confronto con Azure Machine Learning

Data Science Virtual Machine è un'immagine VM per data science, ma Azure Machine Learning è una piattaforma end-to-end che include:

  • Risorse di calcolo completamente gestite
    • Istanze di calcolo
    • Cluster di elaborazione per attività di Machine Learning distribuito
    • Cluster di inferenza per assegnazione di punteggi in tempo reale
  • Archivi dati (ad esempio BLOB, Azure Data Lake Storage Gen2, database SQL)
  • Verifica degli esperimenti
  • Gestione di modelli
  • Notebook
  • Ambienti (gestione delle dipendenze di Conda e R)
  • Etichettatura
  • Pipeline (automatizzazione dei flussi di lavoro di data science end-to-end)

Confronto con le istanze di ambiente di calcolo di Azure Machine Learning

Le istanze di ambiente di calcolo di Azure Machine Learning sono un'immagine VM completamente configurata e gestita, mentre Data Science Virtual Machine è una VM non gestita.

Differenze principali tra una DSVM e un'istanza di calcolo di Azure Machine Learning:

Funzionalità Data science
VM
Azure Machine Learning
Istanza di ambiente di calcolo
Completamente gestita No
Supporto per i linguaggi Python, R, Julia, SQL, C#,
Java, Node.js, F#
Python e R
Sistema operativo Ubuntu
Finestre
Ubuntu
Opzione per GPU preconfigurata
Opzione per aumento delle prestazioni
Accesso SSH
Accesso RDP No
Predefinito
Notebook ospitati
No
(richiede configurazione aggiuntiva)
Accesso Single Sign-On predefinito No
(richiede configurazione aggiuntiva)
Collaborazione predefinita No
Strumenti preinstallati Jupyter(lab), VS Code,
Visual Studio, PyCharm, Juno,
Power BI Desktop, SSMS,
Microsoft Office 365, Apache Drill
Jupyter(lab)

Casi d'uso di DSVM di esempio

Sperimentazione a valutazione a breve termine

La DSVM può valutare o apprendere nuovi strumenti di data science. Provare alcuni degli esempi pubblicati e le procedure dettagliate.

Deep Learning con GPU

Nella DSVM i modelli di training possono usare algoritmi di Deep Learning sull'hardware basato su unità di elaborazione grafica (GPU). Se si sfruttano le funzionalità di ridimensionamento delle macchine virtuali della piattaforma Azure, la DSVM consente di usare hardware basato su GPU nel cloud in base alle proprie esigenze. È possibile passare a una VM basata su GPU durante il training di modelli di grandi dimensioni o quando sono necessari calcoli ad alta velocità, mantenendo lo stesso disco del sistema operativo. È possibile scegliere uno degli SKU di macchine virtuali abilitate per la GPU della serie N con la DSVM. Gli account Azure gratuiti non supportano SKU di macchine virtuali abilitate per GPU.

Una DSVM edizione di Windows è preinstallata con driver GPU, framework e versioni GPU di framework di Deep Learning. Nelle edizioni per Linux, il Deep Learning su GPU è abilitato sulle DSVM Ubuntu.

È anche possibile distribuire l'edizione della DSVM per Ubuntu o Windows in una macchina virtuale di Azure non basata su GPU. In questo caso tutti i framework di Deep Learning eseguono il fallback alla modalità CPU.

Altre informazioni sui framework di Deep Learning e IA disponibili.

Preparazione e formazione sull'analisi scientifica dei dati

Gli istruttori e i formatori aziendali che tengono corsi di data science in genere forniscono un'immagine di macchina virtuale L'immagine garantisce che gli studenti abbiano una configurazione coerente e che gli esempi funzionino in modo prevedibile.

La DSVM consente di creare un ambiente su richiesta con una configurazione coerente, per semplificare i problemi relativi a incompatibilità e supporto. Esistono vantaggi sostanziali per i casi in cui tali ambienti devono essere compilati di frequente, in particolare per i corsi di formazione più brevi.

Che cosa include la DSVM?

Per altre informazioni, vedere questo elenco completo degli strumenti nelle DSVM Windows e Linux.

Passaggi successivi

Per altre informazioni, visitare le risorse seguenti: