OneLake, il OneDrive per i dati

OneLake è un singolo data Lake logico e unificato per l'intera organizzazione. Un data Lake elabora grandi volumi di dati provenienti da varie origini. Come OneDrive, OneLake viene fornito automaticamente con ogni tenant di Microsoft Fabric ed è progettato per essere l'unica posizione per tutti i dati di analisi. OneLake offre alla società:

  • Un data Lake per l'intera organizzazione
  • Una copia dei dati da usare con più moduli di analisi

Un data Lake per l'intera organizzazione

Prima di OneLake, per le società era più semplice creare più Lake per gruppi aziendali diversi anziché collaborare su un singolo Lake, anche tenendo conto del sovraccarico aggiuntivo della gestione di più risorse. OneLake si concentra sulla rimozione di queste sfide, migliorando la collaborazione. Ogni tenant della società ha esattamente un OneLake. Non può mai essercene più di uno e se si ha Fabric il numero non può mai essere zero. Ogni tenant di Fabric effettua automaticamente il provisioning di OneLake, senza risorse aggiuntive da configurare o gestire.

Regolamentato per impostazione predefinita con la titolarità distribuita per la collaborazione

Il concetto di tenant è un vantaggio unico di un servizio SaaS. Sapere dove inizia e termina l'organizzazione di una società fornisce un limite naturale di governance e conformità, che è sotto il controllo di un amministratore tenant. Tutti i dati che finiscono in OneLake sono regolati per impostazione predefinita. Anche se tutti i dati sono entro i limiti impostati dall'amministratore tenant, è importante che questo amministratore non diventi un gatekeeper centrale che impedisca ad altre parti dell'organizzazione di contribuire a OneLake.

All'interno di un tenant è possibile creare un qualsiasi numero di aree di lavoro. Le aree di lavoro consentono a diverse parti dell'organizzazione di distribuire i criteri di titolarità e di accesso. Ogni area di lavoro fa parte di una capacità associata a un'area specifica e viene fatturata separatamente.

Diagramma che mostra la funzione e la struttura di OneLake.

All'interno di un'area di lavoro è possibile creare elementi di dati e accedere a tutti i dati in OneLake tramite gli elementi di dati. Analogamente a come Office archivia i file di Word, Excel e PowerPoint in OneDrive, Fabric archivia lakehouse, warehouse e altri elementi in OneLake. Gli elementi possono offrire esperienze personalizzate per ogni utente tipo, ad esempio l'esperienza di sviluppo di Apache Spark in un lakehouse.

Per altre informazioni su come iniziare a usare OneLake, vedere Creazione di un lakehouse con OneLake.

Aperto a ogni livello

OneLake è aperto a ogni livello. OneLake è basato su Azure Data Lake Storage (ADLS) Gen2 e può supportare qualsiasi tipo di file, strutturato o non strutturato. Tutti gli elementi di dati di Fabric, come i data warehouse e lakehouse, archiviano automaticamente i dati in OneLake in formato Delta Parquet. Se un ingegnere dei dati carica i dati in un lakehouse usando Apache Spark e uno sviluppatore SQL usa T-SQL per caricare i dati in un data warehouse completamente transazionale, entrambi contribuiscono allo stesso data Lake. OneLake archivia tutti i dati tabulari in formato Delta Parquet.

OneLake supporta le stesse API e GLI SDK di ADLS Gen2 per essere compatibili con le applicazioni ADLS Gen2 esistenti, tra cui Azure Databricks. È possibile gestire i dati in OneLake come se fosse un account di archiviazione ADLS di grandi dimensioni per l'intera organizzazione. Ogni area di lavoro viene visualizzata come contenitore all'interno di tale account di archiviazione e gli elementi di dati diversi vengono visualizzati come cartelle all'interno di tali contenitori.

Diagramma che illustra come accedere ai dati di OneLake con API e SDK.

Per altre informazioni sulle API e gli endpoint, vedere Accesso e API di OneLake. Per esempi di integrazioni di OneLake con Azure, vedere gli articoli Azure Synapse Analytics, Azure Storage Explorer, Azure Databricks e Azure HDInsight.

Esplora file di OneLake per Windows

OneLake, il OneDrive per i dati. Proprio come OneDrive, è possibile esplorare facilmente i dati di OneLake da Windows usando Esplora file di OneLake per Windows. È possibile esplorare tutte le aree di lavoro e gli elementi di dati, caricare, scaricare o modificare file in modo semplice come in Office. Esplora file di OneLake semplifica l'uso dei data Lake, consentendo anche agli utenti aziendali non tecnici di usarli.

Per altre informazioni, vedere Esplora file di OneLake.

Una copia dei dati

OneLake mira a offrire il massimo valore possibile da una singola copia di dati senza spostarli o duplicarli. Non è più necessario copiare i dati solo per usarli con un altro modulo o per suddividere i silo in modo da poter analizzare i dati coi dati di altre origini.

I collegamenti connettono i dati tra domini senza spostamento dati

I collegamenti consentono all'organizzazione di condividere facilmente i dati tra utenti e applicazioni senza dover spostare e duplicare le informazioni inutilmente. Quando i team lavorano in modo indipendente in aree di lavoro separate, i collegamenti consentono di combinare i dati in diversi gruppi e domini aziendali in un prodotto dati virtuale che soddisfi le esigenze specifiche di un utente.

Un collegamento è un riferimento ai dati archiviati in altre posizioni di file. Questi percorsi di file possono trovarsi all'interno della stessa area di lavoro o in aree di lavoro diverse, all'interno di OneLake o esterni a OneLake in ADLS, S3 o Dataverse, con altre posizioni di destinazione presto disponibili. Indipendentemente dalla posizione, i collegamenti fanno sembrare che i file e le cartelle siano stati archiviati in locale.

Diagramma che mostra come i collegamenti connettono i dati tra aree di lavoro ed elementi.

Per ulteriori informazioni su come usare i collegamenti, vedere Collegamenti di OneLake.

Una copia dei dati con più moduli di analisi

Anche se le applicazioni potrebbero avere una separazione dell'archiviazione e dell'elaborazione, i dati sono spesso ottimizzati per un singolo modulo, il che rende difficile riutilizzare gli stessi dati per più applicazioni. Con Fabric, i diversi moduli di analisi (T-SQL, Apache Spark, Analysis Services e così via) archiviano i dati nel formato Delta Parquet aperto per consentire l'uso degli stessi dati tra più moduli.

Non è più necessario copiare i dati solo per usarli con un altro modulo. È sempre possibile scegliere il modulo migliore per il lavoro che si sta cercando di fare. Si supponga, per esempio, di avere un team di tecnici SQL che creano un data warehouse completamente transazionale. Possono usare il modulo T-SQL e la piena potenza di T-SQL per creare tabelle, trasformare i dati e caricarli nelle tabelle. Se uno scienziato dei dati vuole usare questi dati, non è più necessario usare un driver Spark/SQL speciale. OneLake archivia tutti i dati in formato Delta Parquet. Gli scienziati dei dati possono usare tutta la potenza del modulo Spark e le sue librerie open source direttamente sui dati.

Gli utenti aziendali possono creare report di Power BI direttamente su OneLake usando la nuova modalità Direct Lake nel modulo Analysis Services. Il modulo Analysis Services è ciò che alimenta i modelli semantici di Power BI e offre sempre due modalità di accesso ai dati: importazione e query diretta. La modalità Direct Lake offre agli utenti tutta la velocità di importazione senza dover copiare i dati, combinando il meglio dell'importazione e della query diretta. Per altre informazioni, vedere Direct Lake.

Diagramma che mostra come più elementi e moduli usano la stessa copia di dati.

Diagramma di esempio che mostra il caricamento dei dati con Spark, l'esecuzione di query con T-SQL e la visualizzazione dei dati in un report di Power BI.