Database SQL con il connettore Apache Spark

Il connettore Apache Spark per database SQL di Azure e SQL Server consente a questi database di fungere da origini dati di input e sink di dati di output per i processi Apache Spark. È possibile usare dati transazionali in tempo reale nel processo di big data analytics e mantenere i risultati per query ad hoc o per la generazione di report.

Rispetto al connettore JDBC incorporato, questo connettore offre la possibilità di inserire dati in grandi quantità nei database SQL. È possibile ottenere eccezionali prestazioni di inserimento di una riga alla volta con una velocità maggiore di 10 o 20 volte. Il connettore Spark per SQL Server e database SQL di Azure supporta anche l'autenticazione microsoft Entra ID, consentendo di connettersi in modo sicuro ai database SQL di Azure da Azure Databricks usando l'account Microsoft Entra ID. Fornisce interfacce simili al connettore JDBC predefinito. È facile eseguire la migrazione dei processi Spark esistenti per usare questo connettore.

Requisiti

Esistono due versioni del connettore Spark per SQL Server: una per Spark 2.4 e una per Spark 3.x. Il connettore Spark 3.x richiede Databricks Runtime 7.x o versione successiva. Il connettore è supportato dalla community e non include il supporto del contratto di servizio Microsoft. Segnalare eventuali problemi in GitHub per coinvolgere la community per assistenza.

Componente Versioni supportate
Apache Spark 3.0.x e 2.4x
Databricks Runtime Connettore Apache Spark 3.0: Databricks Runtime 7.x e versioni successive
Scala Connettore Apache Spark 3.0: 2.12

Connettore Apache Spark 2.4: 2.11
Driver Microsoft JDBC per SQL Server 8.2
Microsoft SQL Server SQL Server 2008 e versioni successive
Database SQL di Azure Supportata

Usare il connettore Spark

Per istruzioni sull'uso del connettore Spark, vedere Connettore Apache Spark: SQL Server e Azure SQL.