Azure Databricks e sicurezza

Azure Databricks è una piattaforma di analisi dei dati ottimizzata per i servizi cloud di Azure. Offre tre ambienti per sviluppare applicazioni a elevato utilizzo di dati:

Per altre informazioni sul modo in cui Azure Databricks migliora la sicurezza dell'analisi dei Big Data, vedere Concetti di Azure Databricks.

Le sezioni seguenti includono considerazioni sulla progettazione, un elenco di controllo per la configurazione e opzioni di configurazione consigliate specifiche per Azure Databricks.

Considerazioni relative alla progettazione

Per impostazione predefinita, tutti i notebook e i risultati dei notebook degli utenti vengono crittografati quando sono inattivi. Se sono presenti altri requisiti, prendere in considerazione l'uso di chiavi gestite dal cliente per i notebook.

Elenco di controllo

Azure Databricks è stato configurato in modo specifico per la sicurezza?


  • Usare il pass-through delle credenziali ID di Microsoft Entra per evitare la necessità di entità servizio durante la comunicazione con Azure Data Lake Archiviazione.
  • Isolare le aree di lavoro, le risorse di calcolo e i dati dall'accesso pubblico. Assicurarsi che solo le persone appropriate possano accedere e solo tramite canali sicuri.
  • Assicurarsi che le aree di lavoro cloud per le analisi siano accessibili solo agli utenti gestiti in modo appropriato.
  • Implementare Collegamento privato di Azure.
  • Limitare e monitorare le macchine virtuali.
  • Usare gli elenchi di accesso IP per consentire agli amministratori di accedere alle aree di lavoro solo dalle rispettive reti aziendali.
  • Usare la funzionalità Inserimento della rete virtuale per abilitare scenari più sicuri.
  • Usare i log di diagnostica per controllare l'accesso e le autorizzazioni dell'area di lavoro.
  • Prendere in considerazione l'uso della funzionalità di connettività sicura al cluster e dell'architettura hub/spoke per evitare l'apertura di porte e l'assegnazione di indirizzi IP pubblici nei nodi del cluster.

Raccomandazioni per la configurazione

Esplorare la tabella di raccomandazioni seguente per ottimizzare la configurazione di Azure Databricks per l'affidabilità del servizio:

Suggerimento Descrizione
Assicurarsi che le aree di lavoro cloud per le analisi siano accessibili solo agli utenti gestiti in modo appropriato. Microsoft Entra ID può gestire l'accesso Single Sign-On per l'accesso remoto. Per una maggiore sicurezza, vedere Accesso condizionale.
Implementare Collegamento privato di Azure. Assicurarsi che tutto il traffico tra gli utenti della piattaforma, i notebook e i cluster di elaborazione che elaborano le query sia crittografato e trasmesso sul backbone della rete del provider di servizi cloud, inaccessibile al mondo esterno.
Limitare e monitorare le macchine virtuali. È necessario limitare l'accesso SSH e alla rete per i cluster che eseguono query in modo da evitare l'installazione di pacchetti arbitrari. I cluster devono usare solo immagini analizzate periodicamente alla ricerca di vulnerabilità.
Usare la funzionalità Inserimento della rete virtuale per abilitare scenari più sicuri. Ad esempio:
- Connessione ad altri servizi di Azure tramite endpoint di servizio.
- Connessione alle origini dati locali tramite route definite dall'utente.
- Connessione a un'appliance virtuale di rete per esaminare tutto il traffico in uscita e intervenire in base alle regole di autorizzazione e rifiuto.
- Uso di DNS personalizzato.
- Distribuzione dei cluster di Azure Databricks nelle reti virtuali esistenti.
Usare i log di diagnostica per controllare l'accesso e le autorizzazioni dell'area di lavoro. Usare i log di audit per visualizzare l'attività con privilegi in un'area di lavoro, nel ridimensionamento dei cluster, in file e cartelle condivise nel cluster.

Artefatti di origine

Gli artefatti di origine di Azure Databricks includono il blog di Databricks: Procedure consigliate per proteggere una piattaforma dati su scala aziendale.

Passaggio successivo