Terminologia di Azure Synapse Analytics

Questo articolo illustra i concetti di base di Azure Synapse Analytics.

Area di lavoro di Synapse

Un'area di lavoro di Synapse è un limite di collaborazione a protezione diretta per l'analisi aziendale basata sul cloud in Azure. Un'area di lavoro viene distribuita in un'area specifica e ha un account e un file system di Azure Data Lake Storage Gen2 associati per l'archiviazione dei dati temporanei. Un'area di lavoro in un gruppo di risorse.

Un'area di lavoro consente di eseguire analisi con SQL e Apache Spark. Le risorse disponibili per SQL e Spark Analytics sono organizzate in pool SQL e Spark.

Servizi collegati

Un'area di lavoro può contenere un numero qualsiasi di servizi collegati, essenzialmente stringa di connessione che definiscono le informazioni necessarie per la connessione all'area di lavoro a risorse esterne.

Synapse SQL

Synapse SQL consente di eseguire analisi basate su Transact-SQL (T-SQL) nell'area di lavoro synapse. Synapse SQL ha due modelli di utilizzo: dedicato e serverless. Per il modello dedicato, usare pool SQL dedicati. Un'area di lavoro può contenere un numero qualsiasi di questi pool. Per il modello serverless, usare i pool SQL serverless. Ogni area di lavoro dispone di uno di questi pool.

All'interno di Synapse Studio è possibile usare i pool SQL eseguendo script SQL.

Nota

Il pool SQL dedicato in Azure Synapse è diverso dal pool SQL dedicato (in precedenza SQL Data Warehouse). Non tutte le funzionalità del pool SQL dedicato nelle aree di lavoro di Azure Synapse si applicano al pool SQL dedicato (in precedenza SQL DW) e viceversa. Per abilitare le funzionalità dell'area di lavoro per un pool SQL dedicato esistente (in precedenza SQL Data Warehouse), vedere Abilitare le funzionalità dell'area di lavoro per un pool SQL dedicato (in precedenza SQL Data Warehouse).

Apache Spark per Synapse

Per usare Spark Analytics, creare e usare pool di Apache Spark serverless nell'area di lavoro di Synapse. Quando si inizia a usare un pool di Spark, le aree di lavoro creano una sessione Spark per gestire le risorse associate a tale sessione.

Per usare Spark all'interno di Synapse, sono disponibili due modi:

  • Notebook Spark per data science e progettazione con Scala, PySpark, C# e SparkSQL
  • Definizioni di processi Spark per l'esecuzione di processi Spark batch con file JAR

SynapseML

SynapseML (noto in precedenza come MMLSpark) è una libreria open source che semplifica la creazione di pipeline di Machine Learning (ML) estremamente scalabili. Si tratta di un ecosistema di strumenti usati per espandere il framework Apache Spark in diverse nuove direzioni. SynapseML unifica diversi framework di apprendimento automatico esistenti e nuovi algoritmi Microsoft in un'unica API scalabile utilizzabile in Python, R, Scala, .NET e Java. Per altre informazioni, vedere Che cos'è SynapseML?

Pipeline

Le pipeline sono il modo in cui Azure Synapse fornisce l'integrazione dei dati, consentendo di spostare i dati tra servizi e attività di orchestrazione.

  • Le pipeline sono un raggruppamento logico di attività che eseguono un'attività insieme.
  • Le attività definiscono azioni all'interno di una pipeline da eseguire sui dati, ad esempio la copia di dati o l'esecuzione di uno script Notebook o SQL.
  • I flussi di dati sono una forma specifica di attività che offre un'esperienza senza codice per eseguire la trasformazione dei dati che usa Synapse Spark sotto copertura.
  • Il trigger esegue una pipeline. Può essere eseguito manualmente o automaticamente (pianificazione, finestra a cascata o basata su eventi).
  • Il set di dati di integrazione è una visualizzazione denominata dei dati che punta o fa riferimento ai dati da usare in un'attività come input e output. Appartiene a un servizio collegato.

Esplora dati (anteprima)

Esplora dati di Azure Synapse offre ai clienti un'esperienza di query interattiva per sbloccare informazioni dettagliate dai dati di log e telemetria.

  • Esplora dati pool sono cluster dedicati che includono due o più nodi di calcolo con archiviazione SSD locale (cache ad accesso frequente) per ottimizzare le prestazioni delle query e più BLOB di archiviazione (cache a freddo) per la persistenza.
  • I database di Esplora dati sono ospitati nei pool di Esplora dati e sono entità logiche costituite da raccolte di tabelle e altri oggetti di database. È possibile avere più database per pool.
  • Le tabelle sono oggetti di database che contengono dati organizzati usando un modello di dati relazionale tradizionale. I dati vengono archiviati in record conformi allo schema di tabella ben definito di Esplora dati che definisce un elenco ordinato di colonne, con ogni colonna con un nome e un tipo di dati scalare. I tipi di dati scalari possono essere strutturati (int, real, datetimeo timespan), semistrutturati (dinamici) o testo libero (stringa). Il tipo dinamico è simile a JSON in quanto può contenere un singolo valore scalare, una matrice o un dizionario di tali valori.
  • Le tabelle esterne sono tabelle che fanno riferimento a un'origine dati SQL o di archiviazione all'esterno del database Esplora dati. Analogamente alle tabelle, una tabella esterna ha uno schema ben definito (un elenco ordinato di coppie nome colonna e tipo di dati). A differenza delle tabelle di Esplora dati in cui i dati vengono inseriti nei pool di Esplora dati, le tabelle esterne operano sui dati archiviati e gestiti all'esterno dei pool. Le tabelle esterne non salvano in modo permanente i dati e vengono usate per eseguire query o esportare dati in un archivio dati esterno.