OneLake, o OneDrive para dados

Artigo
07/25/2024

O OneLake é um data lake único, unificado e lógico para toda a sua organização. Um data Lake processa grandes volumes de dados de várias fontes. Como o OneDrive, o OneLake vem automaticamente com todos os locatários do Microsoft Fabric e foi projetado para ser o único local para todos os seus dados de análise. OneLake traz aos clientes:

Um data lake para toda a organização
Uma cópia dos dados para utilização com vários motores analíticos

Um data lake para toda a organização

Antes do OneLake, era mais fácil para os clientes criar vários lagos para diferentes grupos de negócios em vez de colaborar em um único lago, mesmo com a sobrecarga extra de gerenciar vários recursos. O OneLake se concentra em remover esses desafios, melhorando a colaboração. Cada locatário cliente tem exatamente um OneLake. Nunca pode haver mais do que um e se tiver Tecido, nunca pode haver zero. Cada locatário do Fabric provisiona automaticamente o OneLake, sem recursos extras para configurar ou gerenciar.

Regido por padrão com propriedade distribuída para colaboração

O conceito de inquilino é um benefício único de um serviço SaaS. Saber onde a organização de um cliente começa e termina fornece um limite natural de governança e conformidade, que está sob o controle de um administrador de locatário. Todos os dados que chegam ao OneLake são regidos por padrão. Embora todos os dados estejam dentro dos limites definidos pelo administrador do locatário, é importante que esse administrador não se torne um gatekeeper central impedindo que outras partes da organização contribuam para o OneLake.

Dentro de um locatário, você pode criar qualquer número de espaços de trabalho. Os espaços de trabalho permitem que diferentes partes da organização distribuam políticas de propriedade e acesso. Cada espaço de trabalho faz parte de uma capacidade vinculada a uma região específica e é cobrada separadamente.

Dentro de um espaço de trabalho, você pode criar itens de dados e acessar todos os dados no OneLake por meio de itens de dados. Semelhante a como o Office armazena arquivos do Word, Excel e PowerPoint no OneDrive, o Fabric armazena lakehouses, armazéns e outros itens no OneLake. Os itens podem oferecer experiências personalizadas para cada persona, como a experiência do desenvolvedor Apache Spark em uma casa no lago.

Para obter mais informações sobre como começar a usar o OneLake, consulte Criando uma lakehouse com o OneLake.

Aberto a todos os níveis

OneLake está aberto em todos os níveis. O OneLake foi criado sobre o Azure Data Lake Storage (ADLS) Gen2 e pode suportar qualquer tipo de arquivo, estruturado ou não estruturado. Todos os itens de dados do Fabric, como armazéns de dados e lakehouses, armazenam seus dados automaticamente no OneLake no formato Delta Parquet. Se um engenheiro de dados carrega dados em um lakehouse usando o Apache Spark e, em seguida, um desenvolvedor SQL usa T-SQL para carregar dados em um data warehouse totalmente transacional, ambos estão contribuindo para o mesmo data lake. O OneLake armazena todos os dados tabulares no formato Delta Parquet.

O OneLake suporta as mesmas APIs e SDKs do ADLS Gen2 para serem compatíveis com os aplicativos ADLS Gen2 existentes, incluindo o Azure Databricks. Você pode endereçar dados no OneLake como se fosse uma grande conta de armazenamento ADLS para toda a organização. Cada espaço de trabalho aparece como um contêiner dentro dessa conta de armazenamento, e diferentes itens de dados aparecem como pastas dentro desses contêineres.

Para obter mais informações sobre APIs e endpoints, consulte Acesso e APIs do OneLake. Para obter exemplos de integrações do OneLake com o Azure, consulte os artigos Azure Synapse Analytics, Azure storage explorer, Azure Databricks e Azure HDInsight .

Explorador de ficheiros OneLake para Windows

OneLake é o OneDrive para dados. Assim como o OneDrive, você pode explorar facilmente os dados do OneLake do Windows usando o explorador de arquivos do OneLake para Windows. Pode navegar em todas as suas áreas de trabalho e itens de dados, carregando, transferindo ou modificando ficheiros facilmente, tal como faz no Office. O explorador de arquivos OneLake simplifica o trabalho com data lakes, permitindo que até mesmo usuários empresariais não técnicos os utilizem.

Para obter mais informações, consulte Explorador de arquivos OneLake.

Uma cópia dos dados

O OneLake tem como objetivo oferecer o maior valor possível a partir de uma única cópia de dados sem movimentação ou duplicação de dados. Você não precisa mais copiar dados apenas para usá-los com outro mecanismo ou para quebrar silos para poder analisar os dados com dados de outras fontes.

Os atalhos conectam dados entre domínios sem movimentação de dados

Os atalhos permitem que sua organização compartilhe facilmente dados entre usuários e aplicativos sem ter que mover e duplicar informações desnecessariamente. Quando as equipes trabalham de forma independente em espaços de trabalho separados, os atalhos permitem combinar dados em diferentes grupos de negócios e domínios em um produto de dados virtual para atender às necessidades específicas de um usuário.

Um atalho é uma referência a dados armazenados em outros locais de arquivos. Esses locais de arquivo podem estar dentro do mesmo espaço de trabalho ou em espaços de trabalho diferentes, dentro do OneLake ou externos ao OneLake no ADLS, S3 ou Dataverse — com mais locais de destino em breve. Não importa o local, os atalhos fazem com que os arquivos e pastas pareçam armazenados localmente.

Para obter mais informações sobre como usar atalhos, consulte Atalhos do OneLake.

Uma cópia dos dados com vários motores analíticos

Embora os aplicativos possam ter separação de armazenamento e computação, os dados geralmente são otimizados para um único mecanismo, o que dificulta a reutilização dos mesmos dados para vários aplicativos. Com o Fabric, os diferentes mecanismos analíticos (T-SQL, Apache Spark, Analysis Services, etc.) armazenam dados no formato aberto Delta Parquet para permitir que você use os mesmos dados em vários mecanismos.

Não há mais necessidade de copiar dados apenas para usá-los com outro mecanismo. Você sempre pode escolher o melhor motor para o trabalho que está tentando fazer. Por exemplo, imagine que você tenha uma equipe de engenheiros SQL construindo um data warehouse totalmente transacional. Eles podem usar o mecanismo T-SQL e todo o poder do T-SQL para criar tabelas, transformar dados e carregar os dados em tabelas. Se um cientista de dados quiser fazer uso desses dados, ele não precisará mais passar por um driver Spark/SQL especial. O OneLake armazena todos os dados no formato Delta Parquet. Os cientistas de dados podem usar todo o poder do mecanismo Spark e suas bibliotecas de código aberto diretamente sobre os dados.

Os usuários corporativos podem criar relatórios do Power BI diretamente sobre o OneLake usando o novo modo Direct Lake no mecanismo do Analysis Services. O mecanismo do Analysis Services é o que alimenta os modelos semânticos do Power BI e sempre ofereceu dois modos de acesso a dados: importação e consulta direta. O modo Direct Lake oferece aos usuários toda a velocidade de importação sem a necessidade de copiar os dados, combinando o melhor da importação e consulta direta. Para obter mais informações, consulte Direct Lake.

Diagrama de exemplo mostrando o carregamento de dados usando o Spark, consultando usando T-SQL e exibindo os dados em um relatório do Power BI.

Criando uma casa no lago com OneLake

Partilhar via

OneLake, o OneDrive para dados

Um data lake para toda a organização

Regido por padrão com propriedade distribuída para colaboração

Aberto a todos os níveis

Explorador de ficheiros OneLake para Windows

Uma cópia dos dados

Os atalhos conectam dados entre domínios sem movimentação de dados

Uma cópia dos dados com vários motores analíticos

Comentários

Recursos adicionais

Partilhar via

OneLake, o OneDrive para dados

Um data lake para toda a organização

Regido por padrão com propriedade distribuída para colaboração

Aberto a todos os níveis

Explorador de ficheiros OneLake para Windows

Uma cópia dos dados

Os atalhos conectam dados entre domínios sem movimentação de dados

Uma cópia dos dados com vários motores analíticos

Conteúdos relacionados

Comentários

Recursos adicionais