Volumes externos versus gerenciados
Este artigo discute as diferenças entre volumes gerenciados e volumes externos e os motivos pelos quais você pode optar por usar volumes externos. O Databricks recomenda volumes gerenciados como a solução mais simples para armazenar e gerenciar o acesso a dados não tabulares.
Para obter mais orientações sobre como usar o Catálogo do Unity para configurar o acesso ao armazenamento de objetos na nuvem, consulte Conectar-se ao armazenamento de objetos na nuvem usando o catálogo do Unity.
Diferenças de comportamento entre volumes gerenciados e externos
Os volumes gerenciados e externos oferecem experiências quase idênticas ao usar ferramentas, interfaces do usuário e APIs do Azure Databricks. A seguir estão as maiores diferenças entre os dois tipos de volume.
Os volumes gerenciados oferecem uma experiência de armazenamento totalmente gerenciada. Isso significa o seguinte:
- Todas as interações com arquivos em volumes gerenciados devem passar pelo Catálogo do Unity.
- A nomenclatura de diretório e o layout de dados são gerenciados pelo Catálogo do Unity. Os nomes de diretório incluem hashes para evitar conflitos em contas de armazenamento de objetos na nuvem subjacentes.
- Ao remover um volume gerenciado, o Azure Databricks exclui os dados subjacentes em 30 dias.
Os volumes externos trazem a governança de dados para o armazenamento de objetos na nuvem. Isso significa o seguinte:
- Você pode usar URIs de nuvem no Azure Databricks ou em sistemas externos para interação com arquivos em volumes externos.
- Todos os diretórios criados em um volume externo ou arquivos carregados são relativos a
LOCATION
especificado na criação. - Ao remover um volume externo, você remove o volume do Catálogo do Unity, mas os dados subjacentes permanecem inalterados no local externo.
Por que usar volumes externos?
Os volumes externos permitem que você adicione a governança de dados do Catálogo do Unity aos diretórios existentes de armazenamento de objetos na nuvem. Alguns casos de uso de volumes externos incluem o seguinte:
- Adição de governança a arquivos de dados sem migração.
- Controle dos arquivos produzidos por outros sistemas que devem ser ingeridos ou acessados pelo Azure Databricks.
- Controle dos dados produzidos pelo Azure Databricks que devem ser acessados diretamente do armazenamento de objetos na nuvem por outros sistemas.
O Databricks recomenda usar volumes externos para armazenar arquivos de dados não tabulares, que são lidos ou gravados por sistemas externos, além do Azure Databricks. O Catálogo do Unity não controla leituras e gravações executadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, você deve configurar políticas e credenciais adicionais em sua conta de nuvem para garantir que as políticas de governança de dados sejam respeitadas fora do Azure Databricks.