Terminologia di Azure Synapse Analytics

Questo documento illustra i concetti di base di Azure Synapse Analytics.

Area di lavoro di Synapse

Un'area di lavoro di Synapse è un limite di collaborazione a protezione diretta per l'analisi aziendale basata sul cloud in Azure. Un'area di lavoro viene distribuita in un'area specifica e con un account e un file system di ADLS Gen2 associati (per l'archiviazione di dati temporanei). Un'area di lavoro in un gruppo di risorse.

Un'area di lavoro consente di eseguire analisi con SQL e Apache Spark. Le risorse disponibili per SQL e Spark Analytics sono organizzate in pool SQL e Spark.

Servizi collegati

Un'area di lavoro può contenere un numero indefinito di servizi collegati, essenzialmente stringhe di connessione che definiscono le informazioni necessarie per la connessione dell'area di lavoro a risorse esterne.

Synapse SQL

Synapse SQL offre la possibilità di eseguire analisi basate su T-SQL nell'area di lavoro di Synapse. Synapse SQL ha due modelli di utilizzo: dedicato e serverless. Per il modello dedicato, usare pool SQL dedicati. Un'area di lavoro può contenere un numero qualsiasi di questi pool. Per il modello serverless, usare i pool SQL serverless. Ogni area di lavoro dispone di uno di questi pool.

All'interno di Synapse Studio è possibile usare i pool SQL eseguendo script SQL.

Nota

I pool SQL dedicati in Azure Synapse sono diversi dal pool SQL dedicato (in precedenza SQL Data Warehouse). Non tutte le funzionalità del pool SQL dedicato nelle aree di lavoro di Azure Synapse si applicano al pool SQL dedicato (in precedenza SQL Data Warehouse) e viceversa. Per abilitare funzionalità dell'area di lavoro per un pool SQL dedicato (in precedenza SQL Data Warehouse), vedere Come abilitare un'area di lavoro per il pool SQL dedicato (in precedenza SQL Data Warehouse).

Apache Spark per Synapse

Per usare Spark Analytics, creare e usare pool di Apache Spark serverless nell'area di lavoro di Synapse. Quando si inizia a usare un pool di Spark, l'area di lavoro crea una sessione Spark per gestire le risorse associate.

Per usare Spark all'interno di Synapse, sono disponibili due modi:

  • Notebook Spark per eseguire attività di data science e progettazione con Scala, PySpark, C# e SparkSQL
  • Definizioni di processi Spark per eseguire processi Spark tramite file JAR.

SynapseML

SynapseML (noto in precedenza come MMLSpark) è una libreria open source che semplifica la creazione di pipeline di Machine Learning (ML) estremamente scalabili. Si tratta di un ecosistema di strumenti usati per espandere il framework Apache Spark in diverse nuove direzioni. SynapseML unifica diversi framework di apprendimento automatico esistenti e nuovi algoritmi Microsoft in un'unica API scalabile utilizzabile in Python, R, Scala, .NET e Java. Per altre informazioni, vedere le funzionalità principali di SynapseML.

Pipelines

Le pipeline rappresentano il metodo con cui Azure Synapse fornisce integrazione dei dati, consentendo di spostare i dati tra servizi e di orchestrare le attività.

  • Le pipeline sono un raggruppamento logico di attività che insieme svolgono una funzione.
  • Le attività definiscono le azioni all'interno di una pipeline da eseguire sui dati, ad esempio la copia, l'esecuzione di un notebook o uno script SQL.
  • I flusso di dati sono un tipo specifico di attività che offrono un'esperienza senza codice per eseguire trasformazioni sui dati dietro le quinte con Synapse Spark.
  • Trigger: esegue una pipeline. Può essere eseguito manualmente o automaticamente (pianificazione, finestra a cascata o basata su eventi).
  • Set di dati di integrazione: vista denominata di dati che semplicemente punta o fa riferimento ai dati da usare come input e output di un'attività. Appartiene a un servizio collegato.

Esplora dati (anteprima)

Esplora dati di Azure Synapse offre ai clienti un'esperienza di query interattiva per sbloccare informazioni dettagliate dai dati di log e telemetria.

  • I pool di Esplora dati sono cluster dedicati che includono due o più nodi di calcolo con archiviazione SSD locale (cache ad accesso frequente) per ottimizzare le prestazioni delle query e più archiviazioni BLOB (cache ad accesso saltuario) per la persistenza.
  • I database di Esplora dati sono ospitati nei pool di Esplora dati e sono entità logiche costituite da raccolte di tabelle e altri oggetti di database. È possibile avere più database per pool.
  • Le tabelle sono oggetti di database che contengono dati organizzati usando un modello di dati relazionale tradizionale. I dati vengono archiviati in record che rispettano lo schema di tabella ben definito di Esplora dati che definisce un elenco ordinato di colonne, ogni colonna con un nome e un tipo di dati scalare. I tipi di dati scalari possono essere strutturati (int, real, datetimeo timespan), semistrutturati (dinamici) o testo libero (stringa). Il tipo dinamico è simile a JSON in quanto può contenere un singolo valore scalare, una matrice o un dizionario di tali valori.
  • Le tabelle esterne sono tabelle che fanno riferimento a un'origine dati SQL o di archiviazione all'esterno del database di Esplora dati. Analogamente alle tabelle, una tabella esterna ha uno schema ben definito (un elenco ordinato di coppie nome colonna e tipo di dati). A differenza delle tabelle di Esplora dati in cui i dati vengono inseriti nei pool di Esplora dati, le tabelle esterne operano sui dati archiviati e gestiti all'esterno dei pool. Le tabelle esterne non salvano in modo permanente i dati e vengono usate per eseguire query o esportare dati in un archivio dati esterno.

Passaggi successivi