Che cos'è l'area di lavoro azure CycleCloud per Slurm?
Slurm è uno dei più diffusi e ampiamente usati come gestore di carichi di lavoro open source per intelligenza artificiale/HPC e cloud computing. Slurm consente agli utenti di eseguire applicazioni parallele e distribuite su larga scala in un set di nodi di calcolo e offre funzionalità come la pianificazione dei processi, la gestione delle risorse, la tolleranza di errore e il risparmio energia. Slurm è utilizzato da molti dei migliori supercomputer al mondo, istituti di ricerca, università e aziende.
Tuttavia, la configurazione e la gestione dei cluster Slurm nel cloud possono richiedere molto tempo, soprattutto per gli utenti che non hanno familiarità con l'ambiente cloud o la configurazione Slurm. Gli utenti devono gestire attività come il provisioning e il ridimensionamento dei nodi di calcolo, l'installazione e l'aggiornamento del software Slurm, la configurazione di rete e archiviazione, il monitoraggio dell'integrità e delle prestazioni del cluster e la risoluzione dei problemi. Queste attività possono distrarre gli utenti dalla ricerca principale o dagli obiettivi aziendali e ridurre la produttività e l'efficienza dei carichi di lavoro di intelligenza artificiale/HPC.
L'area di lavoro Di Azure CycleCloud per Slurm è un modello di soluzione di Azure Marketplace che consente agli utenti di creare, configurare e distribuire cluster Slurm predefiniti con CycleCloud in Azure, senza richiedere alcuna conoscenza preliminare di Azure o Slurm. I cluster Slurm verranno preconfigurati con PMix v4, Pyxis e enroot per supportare processi Slurm di INTELLIGENZa artificiale/HPC in contenitori. Gli utenti possono accedere al nodo di accesso con provisioning usando SSH o Visual Studio Code per eseguire attività comuni, ad esempio l'invio e la gestione dei processi Slurm.
Anche se Azure CycleCloud consente già di eseguire alcune di queste operazioni, non distribuisce automaticamente l'infrastruttura di intelligenza artificiale/HPC. Gli utenti devono gestire attività come l'installazione e la configurazione di CycleCloud, la configurazione della rete e l'archiviazione e la creazione e la configurazione del cluster Slurm. L'area di lavoro azure CycleCloud per Slurm esegue automaticamente queste attività in un modello di soluzione Marketplace che può essere distribuito direttamente dal portale di Azure o tramite l'interfaccia della riga di comando di Azure. Sarete pronti in minuti e non giorni o settimane.
Azure CycleCloud è una soluzione ideale quando si vuole creare un ambiente di intelligenza artificiale/HPC in Azure, per trasferire in modalità lift-and-shift alcuni dei carichi di lavoro di intelligenza artificiale/HPC locali o per crearne uno nuovo. Tuttavia, la creazione di un ambiente di intelligenza artificiale/HPC end-to-end completo non è un'attività semplice e sarà necessario decidere come progettare la rete, quale componente di archiviazione usare come file system condiviso, quale tipo di macchina virtuale per l'esecuzione del carico di lavoro e molte piccole operazioni che possono rendere il progetto complesso da distribuire.
L'area di lavoro Azure CycleCloud per Slurm offre diversi vantaggi per gli utenti che vogliono eseguire carichi di lavoro Slurm in Azure, ad esempio:
creazione di cluster semplice e veloce: gli utenti possono creare cluster Slurm in Azure in pochi minuti, seguendo alcuni semplici passaggi nell'interfaccia utente grafica. Questa operazione deve essere confrontata con giorni o settimane di lavoro nel passato senza l'area di lavoro Azure CycleCloud per Slurm. Gli utenti possono scegliere tra diverse dimensioni e tipi di macchina virtuale di Azure e personalizzare le impostazioni del cluster, ad esempio il numero di nodi, la configurazione di rete, le opzioni di archiviazione da Azure NetApp Files al file system lustre gestito di Azure e i parametri Slurm.
la gestione flessibile e dinamica dei cluster: i cluster Slurm verranno ridimensionati verso l'alto o verso il basso da Azure CycleCloud. Gli utenti possono anche monitorare lo stato, le prestazioni e l'utilizzo del cluster, nonché visualizzare i log e le metriche del cluster nell'interfaccia utente grafica. Gli utenti possono anche eliminare i cluster Slurm quando non sono più necessari e pagare solo per le risorse usate.
L'area di lavoro azure CycleCloud per Slurm può essere distribuita da Azure Marketplace o tramite l'interfaccia della riga di comando di Azure. Per eseguire la distribuzione da Marketplace, cercare Slurm e quindi fare clic sul pulsante Crea. Per eseguire la distribuzione usando l'interfaccia della riga di comando di Azure, è prima necessario creare un file di parametri di input e quindi distribuirlo usando il comando az deployment sub create
. Le istruzioni dettagliate sono disponibili qui Come distribuire un ambiente dell'area di lavoro CycleCloud Slurm usando l'interfaccia della riga di comando
L'area di lavoro Azure CycleCloud per Slurm non è un servizio PaaS: l'intera infrastruttura verrà distribuita nel tenant, consentendo così di distribuire tutto (distribuzione greenfield) o specificare risorse esistenti da riutilizzare (distribuzione brownfield), ad esempio il gruppo di risorse di destinazione, la rete virtuale, Azure NetApp Files e altro ancora.
Ecco l'architettura tipica di ciò che verrà distribuito da Azure CycleCloud Workspace for Slurm. Saranno disponibili risorse obbligatorie come una macchina virtuale per l'esecuzione di CycleCloud, un file system condiviso per le home directory degli utenti, un account di archiviazione per l'archiviazione dei progetti CycleCloud.
La rete virtuale può essere distribuita dall'area di lavoro Azure CycleCloud per Slurm o da una esistente in cui verranno create le risorse. Facoltativamente, un file system lustre gestito di Azure verrà creato nella propria subnet.
Se le regole di sicurezza aziendali non consentono l'indirizzo IP pubblico (e molti lo fanno), sarà possibile creare un peering reti virtuali a una rete virtuale esistente in un modello hub e spoke consueto. L'hub conterrà quindi tutti i servizi di connettività, ad esempio un gateway di rete virtuale o azure Bastion.
Infine, in un indirizzo IP non pubblico, nessun ambiente VPN, sarà necessario un bastion e fornirà tutta la connettività protetta per connettersi al portale Web CycleCloud e SSH nei nodi di accesso.