Connettersi all'archiviazione di oggetti cloud e ai servizi usando il catalogo unity
Questo articolo offre una panoramica delle connessioni di archiviazione cloud necessarie per lavorare con i dati usando Unity Catalog, oltre a informazioni sul modo in cui Il catalogo unity regola l'accesso all'archiviazione cloud e ai servizi cloud esterni.
Nota
Se l'area di lavoro è stata creata prima del 9 novembre 2023, potrebbe non essere abilitata per il catalogo Unity. Un amministratore dell'account deve abilitare il catalogo Unity per l'area di lavoro. Consultare Abilitare un'area di lavoro per il catalogo Unity.
In che modo Unity Catalog usa l'archiviazione cloud?
Databricks consiglia di usare Unity Catalog per gestire l'accesso a tutti i dati archiviati nell'archiviazione di oggetti cloud. Il catalogo Unity offre una suite di strumenti per configurare connessioni sicure all'archiviazione di oggetti cloud. Queste connessioni forniscono l'accesso per completare le seguenti azioni:
- Inserire dati non elaborati in un lakehouse.
- Creare e leggere tabelle gestite e volumi gestiti di dati non strutturati nell'archiviazione cloud gestita da Unity Catalog.
- Registrare o creare tabelle esterne contenenti dati tabulari e volumi esterni contenenti dati non strutturati nell'archiviazione cloud gestita tramite il provider di servizi cloud.
- Leggere e scrivere dati non strutturati (come volumi del catalogo Unity).
Per essere più specifico, Il catalogo di Unity usa l'archiviazione cloud in due modi principali:
- Percorsi di archiviazione predefiniti (o "gestiti") per tabelle gestite e volumi gestiti (dati non strutturati e non tabulari) creati in Databricks. Questi percorsi di archiviazione gestiti possono essere definiti a livello di metastore, catalogo o schema. È possibile creare posizioni di archiviazione gestite nel provider di servizi cloud, ma il loro ciclo di vita è completamente gestito dal catalogo unity.
- Percorsi di archiviazione in cui vengono archiviati tabelle e volumi esterni. Si tratta di tabelle e volumi il cui accesso da Azure Databricks è gestito da Unity Catalog, ma il cui ciclo di vita dei dati e il layout dei file vengono gestiti usando il provider di servizi cloud e altre piattaforme dati. In genere si usano tabelle esterne per registrare grandi quantità di dati esistenti in Azure Databricks o se è necessario anche l'accesso in scrittura ai dati usando strumenti esterni ad Azure Databricks.
Per altre informazioni su tabelle e volumi gestiti e esterni, vedere Che cosa sono tabelle e viste? e Che cosa sono i volumi del catalogo Unity?.
Avviso
Non concedere agli utenti finali l'accesso a livello di archiviazione a tabelle o volumi gestiti del catalogo Unity. Ciò compromette la sicurezza e governance dei dati.
Concedere agli utenti l’accesso diretto a livello di archiviazione alla sede di archiviazione esterna in Azure Data Lake Storage Gen2 non rispetta le autorizzazioni concesse né i controlli effettuati da Unity Catalog. L'accesso diretto ignora il controllo, la derivazione e altre funzioni di sicurezza/monitoraggio del catalogo Unity, tra cui il controllo di accesso e le autorizzazioni. È responsabilità dell’operatore gestire l'accesso diretto all'archiviazione tramite Azure Data Lake Storage Gen2 e garantire che gli utenti dispongano delle autorizzazioni appropriate concesse tramite Fabric.
Evitare tutti gli scenari che concedono l'accesso in scrittura a livello di archiviazione diretta per i bucket che archiviano tabelle gestite di Databricks. La modifica, l'eliminazione o l'evoluzione di qualsiasi oggetto direttamente tramite l'archiviazione gestita originariamente dal catalogo Unity può causare un danneggiamento dei dati.
Quali provider di archiviazione cloud sono supportati?
Azure Databricks supporta sia i contenitori di Azure Data Lake Storage Gen2 che i bucket Cloudflare R2 come posizioni di archiviazione cloud per i dati e gli asset di intelligenza artificiale registrati nel catalogo Unity. R2 è destinato principalmente ai casi d'uso in cui si vogliono evitare costi di uscita dei dati, ad esempio la condivisione differenziale tra cloud e aree. Per altre informazioni, si veda Usare repliche Cloudflare R2 o eseguire la migrazione dell'archiviazione a R2.
In che modo Unity Catalog gestisce l'accesso all'archiviazione cloud?
Per gestire l'accesso all'archiviazione cloud sottostante che contiene tabelle e volumi, Unity Catalog usa un oggetto a protezione diretta denominato posizione esterna, che definisce un percorso di archiviazione cloud e le credenziali necessarie per accedere a tale posizione. Tali credenziali sono, a loro volta, definite in un oggetto a protezione diretta del catalogo Unity denominato credenziale di archiviazione. Concedendo e revocando l'accesso alle entità a protezione diretta di posizioni esterne nel catalogo unity, si controlla l'accesso ai dati nel percorso di archiviazione cloud. Concedendo e revocando l'accesso alle entità a protezione diretta delle credenziali di archiviazione in Unity Catalog, è possibile controllare la possibilità di creare oggetti posizione esterna.
Per informazioni dettagliate, vedere Gestire l'accesso all'archiviazione cloud usando il catalogo unity.
Accesso basato sul percorso all'archiviazione cloud
Anche se Unity Catalog supporta l'accesso basato sul percorso a tabelle esterne e volumi esterni usando gli URI di archiviazione cloud, Databricks consiglia agli utenti di leggere e scrivere tutte le tabelle del Catalogo Unity usando nomi di tabella e accedere ai dati nei volumi usando /Volumes
percorsi. I volumi sono l'oggetto a protezione diretta che la maggior parte degli utenti di Azure Databricks deve usare per interagire direttamente con dati non tabulari nell'archiviazione di oggetti cloud. Vedere Che cosa sono i volumi del catalogo Unity?.
Procedure consigliate per l'archiviazione cloud con il catalogo Unity
Azure Databricks richiede l'uso di Azure Data Lake Storage Gen2 come servizio di archiviazione di Azure per i dati elaborati in Azure Databricks usando la governance del catalogo Unity. Azure Data Lake Storage Gen2 consente di separare i costi di archiviazione e calcolo e sfruttare il controllo di accesso con granularità fine fornito dal catalogo Unity. Se i dati vengono archiviati in OneLake (data lake di Microsoft Fabric) ed elaborati da Databricks (ignorando il catalogo Unity), verranno addebitati i costi di archiviazione e calcolo in bundle. Ciò può comportare costi di circa 3 volte superiori per le operazioni di lettura e 1,6 volte superiori per le operazioni di scrittura rispetto ad Azure Data Lake Storage Gen2 per l'archiviazione, la lettura e la scrittura di dati. Anche Archiviazione BLOB di Azure è incompatibile con il catalogo Unity.
Funzionalità | Archiviazione BLOB di Azure | Azure Data Lake Storage Gen2 | OneLake |
---|---|---|---|
Supportato dal catalogo Unity | X | ✓ | X |
Richiede un acquisto aggiuntivo della capacità dell'infrastruttura | X | X | ✓ |
Operazioni supportate dai motori esterni | - Lettura - Scrittura |
- Lettura - Scrittura |
- Lettura (le letture comportano un costo triplo rispetto alla lettura dei dati da Azure Data Lake Storage Gen2). - Le operazioni di scrittura non sono supportate. Per informazioni dettagliate, si veda la documentazione OneLake. |
Distribuzione | Regional | Regional | Generale |
Autenticazione | ID Entra firma di accesso condiviso | ID Entra firma di accesso condiviso | Entra ID |
Eventi di archiviazione | ✓ | ✓ | X |
Elimina temporaneamente | ✓ | ✓ | ✓ |
Controllo di accesso | RBAC | Controllo degli accessi in base al ruolo, ABAC, ACL | Controllo degli accessi in base al ruolo (solo tabella/cartella, ACL di scelta rapida non supportati) |
Chiavi di crittografia | ✓ | ✓ | X |
Livelli di accesso | Archivio online | Hot, cool, cold, archivio | Solo accesso frequente |
In che modo Unity Catalog gestisce l'accesso ad altri servizi cloud?
Il catalogo unity regola l'accesso ai servizi non di archiviazione usando un oggetto a protezione diretta denominato credenziale del servizio. Una credenziale del servizio incapsula una credenziale cloud a lungo termine che fornisce l'accesso a un servizio esterno a cui gli utenti devono connettersi da Azure Databricks.
Le credenziali del servizio non sono destinate alla governance dell'accesso all'archiviazione cloud usata come posizione di archiviazione gestita del catalogo Unity o percorso di archiviazione esterna. Per questi casi d'uso, usare una credenziale di archiviazione, come descritto in How does Unity Catalog govern access to cloud storage?.
Per informazioni dettagliate, vedere:
- Gestire l'accesso ai servizi cloud esterni usando le credenziali del servizio
- Gestire le credenziali del servizio
- Usare le credenziali del servizio Catalogo Unity per connettersi ai servizi cloud esterni
Passaggi successivi
Per iniziare a usare Unity Catalog come amministratore, vedere:
Se si è un nuovo utente e l'area di lavoro è già abilitata per Il catalogo unity, vedere:
Per altre informazioni su come gestire l'accesso all'archiviazione cloud, vedere:
Per altre informazioni su come gestire l'accesso ai servizi cloud, vedere: