Büyük veri gereksinimleri için Azure Data Lake Storage 1. Nesil kullanma

Makale
08/05/2022

Not

Azure Data Lake Storage 1. Nesil artık kullanımdan kaldırıldı. Kullanımdan kaldırma duyurusunu buradan görebilirsiniz.Data Lake Storage 1. Nesil kaynaklara artık erişilemez.

Büyük veri işlemenin dört temel aşaması vardır:

Büyük miktarda veriyi gerçek zamanlı veya toplu olarak bir veri deposuna alma
Verileri işleme
Verileri indirme
Verileri görselleştirme

Bu makalede, büyük veri gereksinimlerinizi karşılamak için kullanılabilecek seçenekleri ve araçları anlamak için Azure Data Lake Storage 1. Nesil ile ilgili olarak bu aşamalara göz atacağız.

verileri Data Lake Storage 1. Nesil alma

Bu bölümde farklı veri kaynakları ve bu verilerin bir Data Lake Storage 1. Nesil hesabına alınabilmesinin farklı yolları vurgulanır.

verileri Data Lake Storage 1. Nesil alma

Geçici veriler

Bu, büyük bir veri uygulamasının prototiplerini oluşturmak için kullanılan daha küçük veri kümelerini temsil eder. Verilerin kaynağına bağlı olarak geçici verileri almanın farklı yolları vardır.

Veri Kaynağı	Kullanarak alma
Yerel bilgisayar	Azure portalındaki Azure PowerShell Azure CLI Visual Studio için Data Lake Araçları'nı kullanma
Azure Depolama Blobu	Azure Data Factory AdlCopy aracı HDInsight kümesinde çalışan DistCp

Akışa alınan veriler

Bu, uygulamalar, cihazlar, algılayıcılar vb. çeşitli kaynaklar tarafından oluşturulabilen verileri temsil eder. Bu veriler çeşitli araçlarla Data Lake Storage 1. Nesil alınabiliyor. Bu araçlar genellikle verileri gerçek zamanlı olarak olay temelinde yakalayıp işler ve daha sonra daha fazla işlenebilmeleri için olayları toplu olarak Data Lake Storage 1. Nesil olarak yazar.

Kullanabileceğiniz araçlar şunlardır:

Azure Stream Analytics - Event Hubs'a alınan olaylar, Azure Data Lake Storage 1. Nesil çıkışı kullanılarak Azure Data Lake Storage 1. Nesil yazılabilir.
EventProcessorHost : Event Hubs'dan olayları alabilir ve ardından Data Lake Storage 1. Nesil .NET SDK'sını kullanarak Data Lake Storage 1. Nesil yazabilirsiniz.

İlişkisel veriler

İlişkisel veritabanlarından da veri kaynağı oluşturabilirsiniz. bir süre boyunca ilişkisel veritabanları, büyük bir veri işlem hattı aracılığıyla işlenirse önemli içgörüler sağlayabilecek çok miktarda veri toplar. Bu tür verileri Data Lake Storage 1. Nesil taşımak için aşağıdaki araçları kullanabilirsiniz.

Web sunucusu günlük verileri (özel uygulamalar kullanarak karşıya yükleme)

Web sunucusu günlük verilerinin analizi büyük veri uygulamaları için yaygın bir kullanım örneği olduğundan ve büyük hacimli günlük dosyalarının Data Lake Storage 1. Nesil yüklenmesi gerektiğinden bu tür bir veri kümesi özellikle vurgulanır. Bu tür verileri karşıya yüklemek için kendi betiklerinizi veya uygulamalarınızı yazmak için aşağıdaki araçlardan herhangi birini kullanabilirsiniz.

Web sunucusu günlük verilerini karşıya yüklemek ve diğer veri türlerini (örneğin sosyal yaklaşım verileri) karşıya yüklemek için, büyük büyük veri uygulamanızın parçası olarak veri yükleme bileşeninizi dahil etme esnekliği sağladığından, kendi özel betiklerinizi/uygulamalarınızı yazmak iyi bir yaklaşımdır. Bazı durumlarda bu kod bir betik veya basit komut satırı yardımcı programı biçiminde olabilir. Diğer durumlarda kod, büyük veri işlemeyi bir iş uygulaması veya çözümüyle tümleştirmek için kullanılabilir.

Azure HDInsight kümeleriyle ilişkili veriler

Çoğu HDInsight küme türü (Hadoop, HBase, Storm) veri depolama deposu olarak Data Lake Storage 1. Nesil destekler. HDInsight kümeleri Azure Depolama Bloblarından (WASB) verilere erişmektedir. Daha iyi performans için WASB'den verileri kümeyle ilişkilendirilmiş bir Data Lake Storage 1. Nesil hesabına kopyalayabilirsiniz. Verileri kopyalamak için aşağıdaki araçları kullanabilirsiniz.

Şirket içi veya IaaS Hadoop kümelerinde depolanan veriler

Büyük miktarda veri mevcut Hadoop kümelerinde, HDFS kullanan makinelerde yerel olarak depolanabilir. Hadoop kümeleri bir şirket içi dağıtımda veya Azure'daki bir IaaS kümesinde olabilir. Tek seferlik bir yaklaşım veya yinelenen bir yaklaşım için bu tür verileri Azure Data Lake Storage 1. Nesil kopyalama gereksinimleri olabilir. Bunu başarmak için kullanabileceğiniz çeşitli seçenekler vardır. Aşağıda alternatiflerin ve ilişkili dengelerin listesi yer almaktadır.

Yaklaşım	Ayrıntılar	Avantajlar	Dikkat edilmesi gereken noktalar
Azure Data Factory'yi (ADF) kullanarak verileri doğrudan Hadoop kümelerinden Azure Data Lake Storage 1. Nesil	ADF, veri kaynağı olarak HDFS'yi destekler	ADF, HDFS ve birinci sınıf uçtan uca yönetim ve izleme için kullanıma hazır destek sağlar	Veri Yönetimi Ağ Geçidinin şirket içinde veya IaaS kümesinde dağıtılması gerekir
Hadoop'tan verileri dosya olarak dışarı aktarın. Ardından uygun mekanizmayı kullanarak dosyaları Azure Data Lake Storage 1. Nesil'a kopyalayın.	Dosyaları Azure Data Lake Storage 1. Nesil'a aşağıdakini kullanarak kopyalayabilirsiniz: Windows işletim sistemi için Azure PowerShell Azure CLI herhangi bir Data Lake Storage 1. Nesil SDK'sı kullanan özel uygulama	Başlamak için hızlı. Özelleştirilmiş karşıya yüklemeler yapabilir	Birden çok teknoloji içeren çok adımlı işlem. Yönetim ve izleme, araçların özelleştirilmiş yapısı göz önünde bulundurulduğunda zaman içinde bir zorluk olarak büyüyecek
Hadoop'tan Azure Depolama'ya veri kopyalamak için Distcp kullanın. Ardından uygun mekanizmayı kullanarak Verileri Azure Depolama'dan Data Lake Storage 1. Nesil kopyalayın.	Aşağıdakileri kullanarak Azure Depolama'dan Data Lake Storage 1. Nesil veri kopyalayabilirsiniz: Azure Data Factory AdlCopy aracı HDInsight kümelerinde çalışan Apache DistCp	Açık kaynak araçlarını kullanabilirsiniz.	Birden çok teknoloji içeren çok adımlı işlem

Gerçekten büyük veri kümeleri

Birkaç terabaytlık veri kümelerini karşıya yüklemek için, yukarıda açıklanan yöntemlerin kullanılması bazen yavaş ve maliyetli olabilir. Böyle durumlarda aşağıdaki seçenekleri kullanabilirsiniz.

Azure ExpressRoute'u kullanma. Azure ExpressRoute, azure veri merkezleriyle şirket içi altyapı arasında özel bağlantılar oluşturmanıza olanak tanır. Bu, büyük miktarlarda veri aktarmak için güvenilir bir seçenek sağlar. Daha fazla bilgi için bkz . Azure ExpressRoute belgeleri.
Verilerin "çevrimdışı" karşıya yüklenmesi. Azure ExpressRoute kullanmak herhangi bir nedenle mümkün değilse, verilerinizle birlikte sabit disk sürücülerini bir Azure veri merkezine göndermek için Azure İçeri/Dışarı Aktarma hizmetini kullanabilirsiniz. Verileriniz ilk olarak Azure Depolama Bloblarına yüklenir. Ardından Azure Depolama Blobları'ndan Data Lake Storage 1. Nesil verileri kopyalamak için Azure Data Factory veya AdlCopy aracını kullanabilirsiniz.

Not

İçeri/Dışarı Aktarma hizmetini kullanırken, Azure veri merkezine gönderdiğiniz disklerdeki dosya boyutları 195 GB'tan büyük olmamalıdır.

Data Lake Storage 1. Nesil depolanan verileri işleme

veriler Data Lake Storage 1. Nesil'de kullanılabilir olduğunda desteklenen büyük veri uygulamalarını kullanarak bu veriler üzerinde analiz çalıştırabilirsiniz. Şu anda Azure HDInsight ve Azure Data Lake Analytics kullanarak Data Lake Storage 1. Nesil'de depolanan veriler üzerinde veri analizi işleri çalıştırabilirsiniz.

Data Lake Storage 1. Nesil'de verileri analiz etme

Aşağıdaki örneklere bakabilirsiniz.

Data Lake Storage 1. Nesil'dan veri indirme

Aşağıdakiler gibi senaryolar için Azure Data Lake Storage 1. Nesil'dan veri indirmek veya taşımak da isteyebilirsiniz:

Mevcut veri işleme işlem hatlarınızla arabirim sağlamak için verileri diğer depolara taşıyın. Örneğin, verileri Data Lake Storage 1. Nesil Azure SQL Veritabanı veya SQL Server'a taşımak isteyebilirsiniz.
Uygulama prototipleri oluştururken IDE ortamlarında işlemek üzere verileri yerel bilgisayarınıza indirin.

Data Lake Storage 1. Nesil çıkış verileri

Böyle durumlarda, aşağıdaki seçeneklerden herhangi birini kullanabilirsiniz:

Ayrıca, Data Lake Storage 1. Nesil'dan veri indirmek üzere kendi betiğinizi/uygulamanızı yazmak için aşağıdaki yöntemleri de kullanabilirsiniz.

Data Lake Storage 1. Nesil'de verileri görselleştirme

Data Lake Storage 1. Nesil depolanan verilerin görsel gösterimlerini oluşturmak için hizmetlerin bir karışımını kullanabilirsiniz.

Data Lake Storage 1. Nesil'de verileri görselleştirme

Verileri Data Lake Storage 1. Nesil Azure Synapse Analytics'e taşımak için Azure Data Factory'yi kullanarak başlayabilirsiniz
Bundan sonra, verilerin görsel gösterimini oluşturmak için Power BI'ı Azure Synapse Analytics ile tümleştirebilirsiniz.

Aracılığıyla paylaş

Büyük veri gereksinimleri için Azure Data Lake Storage 1. Nesil kullanma

verileri Data Lake Storage 1. Nesil alma

Geçici veriler

Akışa alınan veriler

İlişkisel veriler

Web sunucusu günlük verileri (özel uygulamalar kullanarak karşıya yükleme)

Azure HDInsight kümeleriyle ilişkili veriler

Şirket içi veya IaaS Hadoop kümelerinde depolanan veriler

Gerçekten büyük veri kümeleri

Data Lake Storage 1. Nesil depolanan verileri işleme

Data Lake Storage 1. Nesil'dan veri indirme

Data Lake Storage 1. Nesil'de verileri görselleştirme

Ek kaynaklar