Contenitore di Azure per PyTorch (ACPT)

Azure Container per PyTorch è un ambiente leggero e autonomo che include i componenti necessari per eseguire in modo efficace il training ottimizzato per modelli di grandi dimensioni in Azure Machine Learning. Gli ambienti curati di Azure Machine Learning sono disponibili nell'area di lavoro dell'utente per impostazione predefinita e sono supportati da immagini Docker memorizzate nella cache che usano la versione più recente di Azure Machine Learning SDK. Consente di ridurre i costi di preparazione e tempi di distribuzione più rapidi. ACPT può essere usato per iniziare rapidamente a usare varie attività di Deep Learning con PyTorch in Azure.

Nota

Usare Python SDK, l'interfaccia della riga di comando o Azure Machine Learning Studio per ottenere l'elenco completo degli ambienti e le relative dipendenze. Per altre informazioni, vedere l'articolo sugli ambienti.

Perché usare ACPT?

  • Flessibilità: usare così come è con i pacchetti preinstallati o la compilazione sull'ambiente curato.
  • Facilità d'uso: tutti i componenti vengono installati e convalidati rispetto a decine di carichi di lavoro Microsoft per ridurre i costi di installazione e accelerare il time-to-value.
  • Efficienza: evitare compilazioni di immagini non necessarie e avere solo dipendenze necessarie accessibili direttamente nell'immagine o nel contenitore.
  • Framework di training ottimizzato: configurare, sviluppare e accelerare i modelli PyTorch in carichi di lavoro di grandi dimensioni e migliorare la frequenza di training e distribuzione.
  • Stack aggiornato: accedere alle versioni compatibili più recenti di Ubuntu, Python, PyTorch, CUDA/RocM e così via.
  • Tecnologie di ottimizzazione del training più recenti: usare ONNX Runtime , DeepSpeed, MSCCL e altro ancora.
  • Integrazione con Azure Machine Learning: tenere traccia degli esperimenti PyTorch in studio di Azure Machine Learning o usando l'SDK. Il supporto tecnico di Azure riduce anche la latenza di training e distribuzione.
  • Disponibilità come DSVM: l'immagine è disponibile anche come Data Science Virtual Machine (DSVM). Per altre informazioni su Data Science Macchine virtuali, vedere la documentazione di panoramica di DSVM.

Importante

Per visualizzare altre informazioni sui pacchetti e le versioni dell'ambiente curati, visitare la scheda Ambienti in Azure Machine Learning Studio.

Configurazioni supportate per Azure Container per PyTorch (ACPT)

Descrizione: l'ambiente curato da Azure per PyTorch è l'ambiente curato più recente di PyTorch. È ottimizzato per carichi di lavoro di Deep Learning distribuiti di grandi dimensioni ed è preconfezionato con le migliori tecnologie Microsoft per il training accelerato (ad esempio, Onnx Runtime Training (ORT), DeepSpeed, MSCCL e così via.

Sono supportate le configurazioni seguenti:

Nome ambiente Sistema operativo Versione GPU Versione di Python Versione di PyTorch Versione ort-training Versione DeepSpeed torch-ort Version Versione nebulosa
acpt-pytorch-2.2-cuda12.1 Ubuntu 20.04 cu121 3.10 2.2.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.1-cuda12.1 Ubuntu 20.04 cu121 3.10 2.1.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.0-cuda11.7 Ubuntu 20.04 cu117 3.10 2.0.1 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-1.13-cuda11.7 Ubuntu 20.04 cu117 3.10 1.13.1 1.17.3 0.13.1 1.17.3 0.16.11

Sono disponibili altri pacchetti come fairscale, horovod, msccl, protobuf, pyspark, pytest, pytorch-lightning, tensorboard, NebulaML, torchvision e torchmetrics per supportare tutte le esigenze di training.

Per altre informazioni, vedere Creare ambienti ACPT personalizzati curati.

Supporto tecnico

Gli aggiornamenti delle versioni per gli ambienti supportati, incluse le immagini di base a cui fanno riferimento, vengono rilasciati ogni due settimane per risolvere le vulnerabilità non precedenti a 30 giorni. In base all'utilizzo, alcuni ambienti possono essere deprecati (nascosti dal prodotto ma utilizzabili) per supportare scenari di Machine Learning più comuni.