Hızlı Başlangıç: Azure portalını kullanarak Azure HDInsight'ta Apache Hadoop kümesi oluşturma

Makale
03/20/2024

Bu makalede, Azure portalını kullanarak HDInsight'ta Apache Hadoop kümeleri oluşturmayı ve ardından HDInsight'ta Apache Hive işlerini çalıştırmayı öğreneceksiniz. Hadoop işlerinin çoğu toplu işlemdir. Bir küme oluşturur, bazı işleri çalıştırır ve kümeyi silersiniz. Bu makalede, üç görevi de gerçekleştirirsiniz. Kullanılabilir yapılandırmaların ayrıntılı açıklamaları için bkz . HDInsight'ta kümeleri ayarlama. Küme oluşturmak için portalın kullanımı hakkında daha fazla bilgi için bkz . Portalda küme oluşturma.

Bu hızlı başlangıçta, HDInsight Hadoop kümesi oluşturmak için Azure portalını kullanırsınız. Azure Resource Manager şablonunu kullanarak da küme oluşturabilirsiniz.

HdInsight şu anda yedi farklı küme türüyle birlikte gelir. Her küme türü farklı bir bileşen kümesini destekler. Tüm küme türleri Hive'ı destekler. HDInsight'ta desteklenen bileşenlerin listesi için bkz . HDInsight tarafından sağlanan Apache Hadoop kümesi sürümlerindeki yenilikler

Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.

Apache Hadoop kümesi oluşturma

Bu bölümde, Azure portalını kullanarak HDInsight’ta Hadoop kümesi oluşturursunuz.

Azure Portal’ında oturum açın.
Üstteki menüden + Kaynak oluştur'u seçin.
HDInsight> kümesi oluşturma sayfasına gitmek için Analiz Azure HDInsight'ı seçin.

Temel Bilgiler sekmesinden aşağıdaki bilgileri sağlayın:

Özellik	Açıklama
Abonelik	Açılan listeden küme için kullanılan Azure aboneliğini seçin.
Kaynak grubu	Açılan listeden mevcut kaynak grubunuzu seçin veya Yeni oluştur'u seçin.
Küme adı	Genel olarak benzersiz bir ad girin. Ad, harf, sayı ve kısa çizgi içeren en fazla 59 karakterden oluşabilir. Adın ilk ve son karakterleri kısa çizgi olamaz.
Bölge	Açılan listeden kümenin oluşturulduğu bölgeyi seçin. Daha iyi performans için kendinize yakın bir konum seçin.
Küme türü	Küme türünü seç'i seçin. Ardından küme türü olarak Hadoop'ı seçin.
Sürüm	Açılan listeden bir sürüm seçin. Ne seçeceğinizi bilmiyorsanız varsayılan sürümü kullanın.
Küme oturum açma kullanıcı adı ve parolası	Varsayılan oturum açma adı yöneticidir. Parola en az 10 karakter uzunluğunda olmalı ve en az bir basamak, bir büyük harf ve bir küçük harf, bir nonalfanumerik karakter (karakterler ' ` "hariç) içermelidir. "Pass@word1" gibi yaygın parolalar sağlamadığınızdan emin olun.
Secure Shell (SSH) kullanıcı adı	Varsayılan kullanıcı adıdır `sshuser`. SSH kullanıcı adı için başka bir ad sağlayabilirsiniz.
SSH için küme oturum açma parolasını kullanma	SSH kullanıcısı için küme oturum açma kullanıcısı için sağladığınız parolayla aynı parolayı kullanmak için bu onay kutusunu seçin.

HDInsight Linux kullanmaya başlama, küme temel değerlerini sağlar.

Depolama ayarlarına ilerlemek için Sonraki: Depolama'yı >> seçin.

Depolama sekmesinde aşağıdaki değerleri sağlayın:

Özellik	Açıklama
Birincil depolama türü	Azure Depolama varsayılan değerini kullanın.
Seçim yöntemi	Listeden seç varsayılan değerini kullanın.
Birincil depolama hesabı	Mevcut bir depolama hesabını seçmek için açılan listeyi kullanın veya Yeni oluştur'u seçin. Yeni bir hesap oluşturursanız, adın uzunluğu 3 ile 24 karakter arasında olmalıdır ve yalnızca sayı ve küçük harf içerebilir
Kapsayıcı	Otomatik doldurulan değeri kullanın.

HDInsight Linux kullanmaya başlama, küme depolama değerleri sağlar.

Her kümenin bir Azure Depolama hesabı veya bağımlılığı vardır Azure Data Lake Storage Gen2 . Varsayılan depolama hesabı olarak adlandırılır. HDInsight kümesi ve varsayılan depolama hesabı aynı Azure bölgesinde birlikte bulunmalıdır. Kümelerin silinmesi depolama hesabını silmez.

Gözden Geçir ve oluştur sekmesini seçin.

Gözden Geçir ve oluştur sekmesinde, önceki adımlarda seçtiğiniz değerleri doğrulayın.
Oluştur'u belirleyin. Bir küme oluşturmak yaklaşık 20 dakika sürer.

Küme oluşturulduktan sonra, Azure portalında kümeye genel bakış sayfasını görürsünüz.

Apache Hive sorguları çalıştırma

Apache Hive HDInsight’ta kullanılan en popüler bileşendir. HDInsight’ta Hive işleri çalıştırmanın birçok yolu vardır. Bu hızlı başlangıçta portaldan Ambari Hive görünümünü kullanacaksınız. Hive işlerini göndermenin diğer yöntemleri için bkz. HDInsight’ta Hive kullanma.

Not

Apache Hive Görünümü HDInsight 4.0'da kullanılamaz.

Ambari’yi açmak için, önceki ekran görüntüsünden Küme Panosu’nu seçin. Ayrıca, önceki bölümde oluşturduğunuz kümenin nerede ClusterName olduğuna da göz atabilirsinizhttps://ClusterName.azurehdinsight.net.
Kümeyi oluştururken belirlediğiniz Hadoop kullanıcı adını ve parolasını girin. Varsayılan kullanıcı adıdır admin.
Aşağıdaki ekran görüntüsünde gösterildiği gibi Hive Görünümü’nü açın:
Sayfadaki SORGU sekmesinde, aşağıdaki HiveQL ifadelerini çalışma sayfasına yapıştırın:
```
SHOW TABLES;
```
Yürüt'ü seçin. SORGU sekmesinin altında bir SONUÇLAR sekmesi görünür. Bu sekmede işle ilgili bilgiler görüntülenir.

Sorgu tamamlandıktan sonra SORGU sekmesi işlemin sonuçlarını görüntüler. hivesampletable adlı bir tablo görürsünüz. Bu örnek Hive tablosu tüm HDInsight kümeleri ile birlikte gelir.
Aşağıdaki sorguyu çalıştırmak için 4. ve 5. adımı yineleyin:
```
SELECT * FROM hivesampletable;
```
Ayrıca sorgunun sonuçlarını da kaydedebilirsiniz. Sağdaki menü düğmesini seçtikten sonra, sonuçları CSV dosyası olarak indirme veya kümeyle ilişkili depolama hesabında depolama seçeneklerinden birini belirleyin.

Hive işini tamamladıktan sonra sonuçları Azure SQL Veritabanı veya SQL Server veritabanına aktarabilir, ayrıca Sonuçları Excel kullanarak görselleştirebilirsiniz. HDInsight'ta Hive kullanma hakkında daha fazla bilgi için bkz . Örnek bir Apache Log4j dosyasını analiz etmek için HDInsight'ta Apache Hadoop ile Apache Hive ve HiveQL kullanma.

Kaynakları temizleme

Hızlı başlangıcı tamamladıktan sonra kümeyi silmek isteyebilirsiniz. HDInsight ile verileriniz Azure Depolama'da depolanır, böylece kullanımda olmayan bir kümeyi güvenle silebilirsiniz. Kullanımda olmasa bile HDInsight kümesi için de ücretlendirilirsiniz. Küme ücretleri depolama ücretlerinden çok daha fazla olduğundan, kullanımda olmayan kümeleri silmek ekonomik bir anlam ifade eder.

Not

HDInsight üzerinde Hadoop kullanarak ETL işlemlerini çalıştırmayı öğrenmek için bir sonraki makaleye hemen devam ediyorsanız kümeyi çalışır durumda tutmak isteyebilirsiniz. Bunun nedeni, öğreticide hadoop kümesini yeniden oluşturmanız gerekir. Ancak, bir sonraki makaleye hemen geçmeyecekseniz, kümeyi şimdi silmeniz gerekir.

Küme ve/veya varsayılan depolama hesabını silmek için

Azure portalın bulunduğu tarayıcı sekmesine dönün. Kümeye genel bakış sayfasında olmalısınız. Yalnızca kümeyi silmek, ancak varsayılan depolama hesabını korumak istiyorsanız Sil’i seçin.
Kümeyi ve varsayılan depolama hesabını silmek istiyorsanız kaynak grubu sayfasını açmak için kaynak grubu adını (önceki ekran görüntüsünde vurgulanmış) seçin.
Kaynak grubunu sil’i seçerek, kümeyi ve varsayılan depolama hesabını içeren kaynak grubunu silin. Kaynak grubu silindiğinde depolama hesabının da silindiğini unutmayın. Depolama hesabını tutmak istiyorsanız, yalnızca küme silmeyi seçin.

Sonraki adımlar

Bu hızlı başlangıçta, Resource Manager şablonu kullanarak Linux tabanlı HDInsight kümesi oluşturmayı ve temel Hive sorgularını gerçekleştirmeyi öğrendiniz. Sonraki makalede, HDInsight üzerinde Hadoop kullanarak ayıklama, dönüştürme ve yükleme (ETL) işlemi gerçekleştirmeyi öğreneceksiniz.

HDInsight'ta Etkileşimli Sorgu kullanarak verileri ayıklama, dönüştürme ve yükleme

Aracılığıyla paylaş