Vad är Azure Data Lake Storage Gen1?

Kommentar

Azure Data Lake Storage Gen1 har nu dragits tillbaka. Se pensionsmeddelandet här. Data Lake Storage Gen1-resurser är inte längre tillgängliga.

Azure Data Lake Storage Gen1 är en företagsomfattande lagringsplats i hyperskala för analysarbetsbelastningar med stordata. Med Azure Data Lake kan du samla in data av olika storlekar, former, typer och inmatningshastighet på en enda plats för drifts- och undersökande analyser.

Data Lake Storage Gen1 kan nås från Hadoop (tillgängligt med HDInsight-kluster) med hjälp av WebHDFS-kompatibla REST-API:er. Den är utformad för att aktivera analys av lagrade data och är anpassad för prestanda för dataanalysscenarier. Data Lake Storage Gen1 innehåller alla funktioner i företagsklass: säkerhet, hanterbarhet, skalbarhet, tillförlitlighet och tillgänglighet.

Azure Data Lake

Viktiga funktioner

Några av de viktigaste funktionerna i Data Lake Storage Gen1 är följande.

Byggt för Hadoop

Data Lake Storage Gen1 är ett Apache Hadoop-filsystem som är kompatibelt med Hadoop Distributed File System (HDFS) och fungerar med Hadoop-ekosystemet. Dina befintliga HDInsight-program eller -tjänster som använder WebHDFS-API:et kan enkelt integreras med Data Lake Storage Gen1. Data Lake Storage Gen1 exponerar också ett WebHDFS-kompatibelt REST-gränssnitt för program.

Du kan enkelt analysera data som lagras i Data Lake Storage Gen1 med hadoop-analysramverk som MapReduce eller Hive. Du kan etablera Azure HDInsight-kluster och konfigurera dem för direkt åtkomst till data som lagras i Data Lake Storage Gen1.

Obegränsad lagring, petabytefiler

Data Lake Storage Gen1 ger obegränsad lagring och kan lagra en mängd olika data för analys. Det medför inga begränsningar för kontostorlekar, filstorlekar eller mängden data som kan lagras i en datasjö. Enskilda filer kan variera från kilobyte till petabyte i storlek. Data lagras på ett lämpligt sätt genom att göra flera kopior. Det finns ingen gräns för hur lång tid data kan lagras i datasjön.

Prestandajusterad för analyser av stordata

Data Lake Storage Gen1 är byggt för att köra storskaliga analyssystem som kräver massivt dataflöde för att köra frågor mot och analysera stora mängder data. Datasjön sprider delar av en fil i ett antal enskilda lagringsservrar. Detta förbättrar läsgenomströmning vid läsning av filen parallellt för att utföra dataanalyser.

Företagsklar: Hög tillgänglighet och säker

Data Lake Storage Gen1 ger branschstandardtillgänglighet och tillförlitlighet. Dina datatillgångar lagras varaktigt genom att göra redundanta kopior som skyddar mot oväntade fel.

Data Lake Storage Gen1 ger också säkerhet i företagsklass för lagrade data. Mer information finns i Skydda data i Azure Data Lake Storage Gen1.

Alla data

Data Lake Storage Gen1 kan lagra data i sitt interna format, utan att kräva några tidigare transformeringar. Data Lake Storage Gen1 kräver inte att ett schema definieras innan data läses in, vilket lämnar det upp till det enskilda analysramverket att tolka data och definiera ett schema vid tidpunkten för analysen. Möjligheten att lagra filer med godtyckliga storlekar och format gör det möjligt för Data Lake Storage Gen1 att hantera strukturerade, halvstrukturerade och ostrukturerade data.

Data Lake Storage Gen1-containrar för data är i huvudsak mappar och filer. Du arbetar med lagrade data med hjälp av SDK:er, Azure-portalen och Azure PowerShell. Om du placerar dina data i arkivet med hjälp av dessa gränssnitt och använder lämpliga containrar kan du lagra alla typer av data. Data Lake Storage Gen1 utför ingen särskild hantering av data baserat på vilken typ av data som lagras.

Skydda data

Data Lake Storage Gen1 använder Microsoft Entra-ID för autentisering och åtkomstkontrollistor (ACL) för att hantera åtkomst till dina data.

Funktion beskrivning
Autentisering Data Lake Storage Gen1 integreras med Microsoft Entra ID för identitets- och åtkomsthantering för alla data som lagras i Data Lake Storage Gen1. På grund av integreringen drar Data Lake Storage Gen1 nytta av alla Microsoft Entra-funktioner, till exempel multifaktorautentisering, villkorsstyrd åtkomst, rollbaserad åtkomstkontroll i Azure, övervakning av programanvändning, säkerhetsövervakning och aviseringar och så vidare. Data Lake Storage Gen1 stöder OAuth 2.0-protokollet för autentisering i REST-gränssnittet. Se Data Lake Storage Gen1-autentisering.
Åtkomstkontroll Data Lake Storage Gen1 ger åtkomstkontroll genom att stödja POSIX-behörigheter som exponeras av WebHDFS-protokollet. Du kan aktivera ACL:er i rotmappen, på undermappar och på enskilda filer. Mer information om hur ACL:er fungerar i kontexten för Data Lake Storage Gen1 finns i Åtkomstkontroll i Data Lake Storage Gen1.
Kryptering Data Lake Storage Gen1 tillhandahåller också kryptering för data som lagras i kontot. Du anger krypteringsinställningarna när du skapar ett Data Lake Storage Gen1-konto. Du kan välja att kryptera dina data eller välja ingen kryptering. Mer information finns i Kryptering i Data Lake Storage Gen1. Anvisningar om hur du tillhandahåller krypteringsrelaterad konfiguration finns i Komma igång med Data Lake Storage Gen1 med hjälp av Azure-portalen.

Anvisningar om hur du skyddar data i Data Lake Storage Gen1 finns i Skydda data i Azure Data Lake Storage Gen1.

Programkompatibilitet

Data Lake Storage Gen1 är kompatibelt med de flesta komponenter med öppen källkod i Hadoop-ekosystemet. Den integreras också bra med andra Azure-tjänster. Om du vill veta mer om hur du kan använda Data Lake Storage Gen1 med komponenter med öppen källkod och andra Azure-tjänster använder du följande länkar:

Data Lake Storage Gen1-filsystem

Data Lake Storage Gen1 kan nås via filsystemet AzureDataLakeFilesystem (adl://) i Hadoop-miljöer (tillgängligt med HDInsight-kluster). Program och tjänster som använder adl:// kan dra nytta av ytterligare prestandaoptimeringar som för närvarande inte är tillgängliga i WebHDFS. Därför ger Data Lake Storage Gen1 dig flexibiliteten att antingen använda bästa prestanda med det rekommenderade alternativet att använda adl:// eller underhålla befintlig kod genom att fortsätta använda WebHDFS-API:et direkt. Azure HDInsight utnyttjar fullständigt AzureDataLakeFilesystem för att ge bästa prestanda på Data Lake Storage Gen1.

Du kan komma åt dina data i Data Lake Storage Gen1 med hjälp av adl://<data_lake_storage_gen1_name>.azuredatalakestore.net. Mer information om hur du kommer åt data i Data Lake Storage Gen1 finns i Visa egenskaper för lagrade data.

Nästa steg