Piattaforme dati supportate nella Data Science Virtual Machine

Con una Data Science Virtual Machine, (DSVM) è possibile compilare risorse analitiche per un'ampia gamma di piattaforme di dati. Oltre alle interfacce di piattaforme di dati remote, la macchina virtuale per data science offre un'istanza locale per il rapido sviluppo e la creazione di prototipi.

La DSVM supporta questi strumenti di piattaforma dati:

SQL Server Developer Edition

Categoria Valore
Che cos'è? Un'istanza locale del database relazionale
Edizioni supportate della DSVM Windows 2019, Linux (SQL Server 2019)
Usi tipici
  • Sviluppo locale rapido, con un set di dati più piccolo
  • Eseguire R In-database
Collegamenti agli esempi
  • Un piccolo esempio di set di dati di New York City viene caricato nel database SQL:
    nyctaxi
  • Un campione Jupyter che mostra Microsoft Machine Learning Server e analisi nel database può essere trovato in:
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
Strumenti correlati nella DSVM
  • SQL Server Management Studio
  • Driver ODBC/JDBC
  • pyodbc, RODBC

Nota

È possibile usare SQL Server Developer Edition solo a scopo di sviluppo e test. È necessaria una licenza oppure si deve eseguire una delle macchine virtuali di SQL Server nell'ambiente di produzione.

Nota

Il supporto per la versione autonoma di Machine Learning Server è terminato il 1° luglio 2021. Verrà rimosso dalle immagini della DSVM dopo il 30 giugno. Le distribuzioni esistenti continueranno ad avere accesso al software; tuttavia, a causa del raggiungimento della data di fine del supporto, il supporto per il software è terminato il 1° luglio 2021.

Nota

SQL Server Developer Edition verrà rimosso dalle immagini della DSVM entro la fine di novembre 2021. Le distribuzioni esistenti continueranno a essere installate in SQL Server Developer Edition. In nuove distribuzioni, se si desidera avere accesso all’SQL Server Developer Edition, è possibile installarlo tramite il supporto Docker. Per altre informazioni, vedere Avvio rapido: eseguire immagini del contenitore di SQL Server con Docker.

Finestre

Attrezzaggio

Il server del database è già preconfigurato e i servizi Windows correlati a SQL Server, (ad esempio, SQL Server (MSSQLSERVER)) sono impostati in modo da essere eseguiti automaticamente. L'unico passaggio manuale prevede l'abilitazione dell'analisi nel database tramite l’uso di Microsoft Machine Learning Server. Eseguire il comando seguente per abilitare l'analisi come azione una tantum in SQL Server Management Studio (SSMS). Eseguire questo comando dopo aver eseguito l'accesso come amministratore del computer, aprire una nuova query in SSMS e selezionare il database master:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(sostituire %COMPUTERNAME% con il nome della VM).

Per eseguire SQL Server Management Studio, è possibile cercare "SQL Server Management Studio" nell'elenco dei programmi, oppure usare Windows Search per trovarlo ed eseguirlo. Quando vengono richieste le credenziali, selezionare Autenticazione di Windows e usare o il nome del computer o localhost nel campo Nome del Microsoft SQL Server.

Utilizzo ed esecuzione

Per impostazione predefinita, il server di database con l'istanza del database predefinito viene eseguito automaticamente. È possibile usare strumenti quali SQL Server Management Studio nella macchina virtuale per accedere al database SQL Server in locale. L'account degli amministratori locali dispone di accesso come amministratore al database.

Inoltre, la DSVM include driver ODBC e JDBC per comunicare con

  • SQL Server
  • Database SQL di Azure
  • Risorse di Azure Synapse Analytics provenienti da applicazioni scritte in più linguaggi, tra cui Python e Machine Learning Server.

Come viene configurato e installato in DSVM?

SQL Server è installato nella modalità standard. Disponibile in C:\Program Files\Microsoft SQL Server. L'istanza di Machine Learning Server nel database è disponibile in C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. La DSVM dispone anche di un'istanza autonoma di Machine Learning Server separata, installata in C:\Program Files\Microsoft\R Server\R_SERVER. Queste due istanze di Machine Learning Server non condividono le librerie.

Ubuntu

È necessario installare SQL Server Developer Edition in una DSVM Ubuntu prima di poterlo usare. Per altre informazioni, vedere Avvio rapido: Installare SQL Server e creare un database in Ubuntu.

Apache Spark 2.x (autonomo)

Categoria Valore
Che cos'è? Un'istanza autonoma, ovvero un nodo singolo in-process, della nota piattaforma Apache Spark, un sistema per la rapida elaborazione di dati su larga scala e il processo di machine learning
Edizioni supportate della DSVM Linux
Usi tipici
  • Rapido sviluppo di applicazioni Spark/PySpark in locale con un set di dati più piccolo e successiva distribuzione in cluster Spark di grandi dimensioni, ad esempio Azure HDInsight
  • Testare il contesto Spark di Microsoft Machine Learning Server
  • Usare SparkML o la libreria open source MMLSpark di Microsoft per compilare applicazioni ML
Collegamenti agli esempi Esempio Jupyter:
  • ~/notebooks/SparkML/pySpark
  • ~/notebooks/MMLSpark

Microsoft Machine Learning Server (contesto Spark): /dsvm/samples/MRS/MRSSparkContextSample.R

Strumenti correlati nella DSVM
  • PySpark, Scala
  • Jupyter (Spark/PySpark Kernels)
  • Microsoft Machine Learning Server, SparkR, Sparklyr
  • Apache Drill

Modalità d'uso

È possibile eseguire il spark-submit comando o pyspark per inviare processi Spark nella riga di comando. È anche possibile creare un blocco appunti Jupyter creando un nuovo blocco appunti con il kernel Spark.

Per usare Spark da R, è necessario usare librerie come SparkR, Sparklyr e Microsoft Machine Learning Server, disponibili nella DSVM. Vedere i collegamenti agli esempi nella tabella precedente.

Attrezzaggio

Prima svolgere esecuzioni in un contesto Spark in Microsoft Machine Learning Server nella versione DSVM per Ubuntu Linux, è necessario completare un unico passaggio di configurazione per abilitare un solo nodo locale Hadoop Distributed File System e un'istanza Yarn. Per impostazione predefinita, i servizi Hadoop sono installati ma disabilitati su DSVM. Per abilitarli, la prima volta eseguire i comandi seguenti come radice:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Per arrestare i servizi correlati a Hadoop quando non sono necessari, eseguire systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.

Un esempio che illustra come sviluppare e testare MRS in un contesto Spark remoto, ovvero l'istanza di Spark autonoma nel DSVM, è disponibile nella directory /dsvm/samples/MRS.

Come viene configurato e installato in DSVM?

Piattaforma Percorso di installazione ($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

Le librerie di accesso ai dati di Blob di Azure o da Azure Data Lake Storage tramite l'uso delle librerie Microsoft Machine Learning MMLSpark sono preinstallate in $SPARK_HOME/JAR. Questi JAR vengono caricati automaticamente all'avvio di Spark. Per impostazione predefinita, Spark usa dati situati sul disco locale.

L'istanza di Spark nella DSVM può accedere a dati archiviati nell'archiviazione BLOB o in Azure Data Lake Storage. È prima necessario creare e configurare il file core-site.xml in base al modello in $SPARK_HOME/conf/core-site.xml.template. È anche necessario disporre delle credenziali appropriate per accedere all'archiviazione Blob e ad Azure Data Lake Storage. I file modello usano segnaposti per l'archiviazione Blob e le configurazioni di Azure Data Lake Storage.

Per altre informazioni sulla creazione di credenziali del servizio Azure Data Lake Storage, vedere Autenticazione con Azure Data Lake Storage Gen1. Dopo aver immesso le credenziali per l'archiviazione Blob o Azure Data Lake Storage nel file di core-site.xml, è possibile fare riferimento ai dati archiviati in tali origini tramite il prefisso URI di wasb:// o adl://.