Volumes externos versus gerenciados

Este artigo discute as diferenças entre volumes gerenciados e volumes externos e os motivos pelos quais você pode optar por usar volumes externos. O Databricks recomenda volumes gerenciados como a solução mais simples para armazenar e gerenciar o acesso a dados não tabulares.

Para obter mais orientações sobre como usar o Catálogo do Unity para configurar o acesso ao armazenamento de objetos na nuvem, consulte Conectar-se ao armazenamento de objetos na nuvem usando o catálogo do Unity.

Diferenças de comportamento entre volumes gerenciados e externos

Os volumes gerenciados e externos oferecem experiências quase idênticas ao usar ferramentas, interfaces do usuário e APIs do Azure Databricks. A seguir estão as maiores diferenças entre os dois tipos de volume.

Os volumes gerenciados oferecem uma experiência de armazenamento totalmente gerenciada. Isso significa o seguinte:

  • Todas as interações com arquivos em volumes gerenciados devem passar pelo Catálogo do Unity.
  • A nomenclatura de diretório e o layout de dados são gerenciados pelo Catálogo do Unity. Os nomes de diretório incluem hashes para evitar conflitos em contas de armazenamento de objetos na nuvem subjacentes.
  • Ao remover um volume gerenciado, o Azure Databricks exclui os dados subjacentes em 30 dias.

Os volumes externos trazem a governança de dados para o armazenamento de objetos na nuvem. Isso significa o seguinte:

  • Você pode usar URIs de nuvem no Azure Databricks ou em sistemas externos para interação com arquivos em volumes externos.
  • Todos os diretórios criados em um volume externo ou arquivos carregados são relativos a LOCATION especificado na criação.
  • Ao remover um volume externo, você remove o volume do Catálogo do Unity, mas os dados subjacentes permanecem inalterados no local externo.

Por que usar volumes externos?

Os volumes externos permitem que você adicione a governança de dados do Catálogo do Unity aos diretórios existentes de armazenamento de objetos na nuvem. Alguns casos de uso de volumes externos incluem o seguinte:

  • Adição de governança a arquivos de dados sem migração.
  • Controle dos arquivos produzidos por outros sistemas que devem ser ingeridos ou acessados pelo Azure Databricks.
  • Controle dos dados produzidos pelo Azure Databricks que devem ser acessados diretamente do armazenamento de objetos na nuvem por outros sistemas.

O Databricks recomenda usar volumes externos para armazenar arquivos de dados não tabulares, que são lidos ou gravados por sistemas externos, além do Azure Databricks. O Catálogo do Unity não controla leituras e gravações executadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, você deve configurar políticas e credenciais adicionais em sua conta de nuvem para garantir que as políticas de governança de dados sejam respeitadas fora do Azure Databricks.