Azure Data Lake Storage Gen2 について理解する

5 分

データレイクとは、データをそれ本来の形式 (通常は BLOB またはファイル) で格納するデータリポジトリです。 Azure Data Lake Storage は、ハイパフォーマンスの分析用に Azure に組み込まれている、包括的で、高い拡張性があり、セキュリティで保護され、コスト効率に優れたデータレイクソリューションです。

Diagram representing files in Azure data Lake Storage Gen2 being accessed by big data technologies.

ファイルシステムとストレージプラットフォームが統合された Azure Data Lake Storage は、データの分析情報をすばやく識別するのに役立ちます。 Data Lake Storage は、Azure Blob Storage の機能が基になっており、分析ワークロード用に特に最適化されています。この統合により、Blob Storage の分析パフォーマンス、階層化とデータライフサイクル管理機能、および Azure Storage の高可用性、セキュリティ、耐久性の機能が可能になっています。

メリット

Data Lake Storage は、数百ギガバイトのスループットを安全に処理しながら、エクサバイト規模のさまざまな種類および量のデータを処理するよう設計されています。このため、Data Lake Storage Gen2 はリアルタイムソリューションとバッチソリューションの両方の基礎として使用できます。

Hadoop と互換性のあるアクセス

Data Lake Storage のベネフィットの 1 つは、データを Hadoop 分散ファイルシステム (HDFS) に格納されているかのように扱えることです。この機能では、データを 1 か所に格納し、Azure Databricks、Azure HDInsight、Azure Synapse Analytics などのコンピューティングテクノロジで、環境間でデータを移動せずにデータにアクセスできます。また、データエンジニアは、Parquet 形式などのストレージメカニズムを使うこともできます。この形式は、高度に圧縮され、内部の列形式ストレージを使って複数のプラットフォームで高いパフォーマンスを示します。

セキュリティ

Data Lake Storage では、親ディレクトリのアクセス許可を継承しないアクセス制御リスト (ACL) と Portable Operating System Interface (POSIX) のアクセス許可がサポートされています。実際には、データレイク内に格納されているデータに対してディレクトリレベルまたはファイルレベルでアクセス許可を設定でき、はるかに安全なストレージシステムが提供されます。このセキュリティは、Hive や Spark などのテクノロジ、または Windows、macOS、Linux で動く Azure Storage Explorer などのユーティリティを使って構成できます。格納されているすべてのデータは、Microsoft または顧客管理キーのいずれかを使用して保存時に暗号化されます。

パフォーマンス

Azure Data Lake Storage では、格納しているデータをファイルシステムのようなディレクトリとサブディレクトリの階層に整理して、簡単に移動できるようにしています。その結果、データ処理に必要なコンピューティングリソースは少なくなり、時間の短縮とコストの削減ができるようになっています。

データの冗長性

Data Lake Storage では、ローカル冗長ストレージ (LRS) を使って 1 つのデータセンター内で、または geo 冗長ストレージ (GRS) オプションを使ってセカンダリリージョンにデータの冗長性を提供する、Azure Blob レプリケーションモデルが利用されています。この機能により、データは常に利用でき、災害の発生時に保護されます。

ヒント

データエンジニアは、データレイクを計画するとき常に、構造、データガバナンス、セキュリティについて慎重に検討する必要があります。これには、レイクの構造と編成に影響を与える可能性のある次のような要因に関する検討を含める必要があります。

格納するデータの種類
データの変換方法
データにアクセスする必要があるユーザー
典型的なアクセスパターン

このアプローチは、レイク全体のアクセス制御ガバナンスを計画する方法を決定するのに役立ちます。データエンジニアは、データガバナンスとデータ品質対策の欠如のために、ユーザーがアクセスして有効に使用することができなくなる、いわゆるデータの泥沼にレイクがならないよう、事前に取り組む必要があります。 Azure Data Lake のベースラインを確立し、そのベストプラクティスに従うと、組織が成長し、より多くのことを達成するための洞察を得ることができる、適切で堅牢な実装を確保するのに役立ちます。

続行

メリット

Hadoop と互換性のあるアクセス

セキュリティ

パフォーマンス

データの冗長性

フィードバック