Hızlı Başlangıç: Azure portalını kullanarak Azure HDInsight'ta Apache Hadoop kümesi oluşturma

Bu makalede, Azure portalını kullanarak HDInsight'ta Apache Hadoop kümeleri oluşturmayı ve ardından HDInsight'ta Apache Hive işlerini çalıştırmayı öğreneceksiniz. Hadoop işlerinin çoğu toplu işlemdir. Bir küme oluşturur, bazı işleri çalıştırır ve kümeyi silersiniz. Bu makalede, üç görevi de gerçekleştirirsiniz. Kullanılabilir yapılandırmaların ayrıntılı açıklamaları için bkz . HDInsight'ta kümeleri ayarlama. Küme oluşturmak için portalın kullanımı hakkında daha fazla bilgi için bkz . Portalda küme oluşturma.

Bu hızlı başlangıçta, HDInsight Hadoop kümesi oluşturmak için Azure portalını kullanırsınız. Azure Resource Manager şablonunu kullanarak da küme oluşturabilirsiniz.

HdInsight şu anda yedi farklı küme türüyle birlikte gelir. Her küme türü farklı bir bileşen kümesini destekler. Tüm küme türleri Hive'ı destekler. HDInsight'ta desteklenen bileşenlerin listesi için bkz . HDInsight tarafından sağlanan Apache Hadoop kümesi sürümlerindeki yenilikler

Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.

Apache Hadoop kümesi oluşturma

Bu bölümde, Azure portalını kullanarak HDInsight’ta Hadoop kümesi oluşturursunuz.

  1. Azure Portal’ında oturum açın.

  2. Üstteki menüden + Kaynak oluştur'u seçin.

    Bir kaynak HDInsight kümesi oluşturun.

  3. HDInsight> kümesi oluşturma sayfasına gitmek için Analiz Azure HDInsight'ı seçin.

  4. Temel Bilgiler sekmesinden aşağıdaki bilgileri sağlayın:

    Özellik Açıklama
    Abonelik Açılan listeden küme için kullanılan Azure aboneliğini seçin.
    Kaynak grubu Açılan listeden mevcut kaynak grubunuzu seçin veya Yeni oluştur'u seçin.
    Küme adı Genel olarak benzersiz bir ad girin. Ad, harf, sayı ve kısa çizgi içeren en fazla 59 karakterden oluşabilir. Adın ilk ve son karakterleri kısa çizgi olamaz.
    Bölge Açılan listeden kümenin oluşturulduğu bölgeyi seçin. Daha iyi performans için kendinize yakın bir konum seçin.
    Küme türü Küme türünü seç'i seçin. Ardından küme türü olarak Hadoop'ı seçin.
    Sürüm Açılan listeden bir sürüm seçin. Ne seçeceğinizi bilmiyorsanız varsayılan sürümü kullanın.
    Küme oturum açma kullanıcı adı ve parolası Varsayılan oturum açma adı yöneticidir. Parola en az 10 karakter uzunluğunda olmalı ve en az bir basamak, bir büyük harf ve bir küçük harf, bir nonalfanumerik karakter (karakterler ' ` "hariç) içermelidir. "Pass@word1" gibi yaygın parolalar sağlamadığınızdan emin olun.
    Secure Shell (SSH) kullanıcı adı Varsayılan kullanıcı adıdır sshuser. SSH kullanıcı adı için başka bir ad sağlayabilirsiniz.
    SSH için küme oturum açma parolasını kullanma SSH kullanıcısı için küme oturum açma kullanıcısı için sağladığınız parolayla aynı parolayı kullanmak için bu onay kutusunu seçin.

    HDInsight Linux kullanmaya başlama, küme temel değerlerini sağlar.

    Depolama ayarlarına ilerlemek için Sonraki: Depolama'yı >> seçin.

  5. Depolama sekmesinde aşağıdaki değerleri sağlayın:

    Özellik Açıklama
    Birincil depolama türü Azure Depolama varsayılan değerini kullanın.
    Seçim yöntemi Listeden seç varsayılan değerini kullanın.
    Birincil depolama hesabı Mevcut bir depolama hesabını seçmek için açılan listeyi kullanın veya Yeni oluştur'u seçin. Yeni bir hesap oluşturursanız, adın uzunluğu 3 ile 24 karakter arasında olmalıdır ve yalnızca sayı ve küçük harf içerebilir
    Kapsayıcı Otomatik doldurulan değeri kullanın.

    HDInsight Linux kullanmaya başlama, küme depolama değerleri sağlar.

    Her kümenin bir Azure Depolama hesabı veya bağımlılığı vardır Azure Data Lake Storage Gen2 . Varsayılan depolama hesabı olarak adlandırılır. HDInsight kümesi ve varsayılan depolama hesabı aynı Azure bölgesinde birlikte bulunmalıdır. Kümelerin silinmesi depolama hesabını silmez.

    Gözden Geçir ve oluştur sekmesini seçin.

  6. Gözden Geçir ve oluştur sekmesinde, önceki adımlarda seçtiğiniz değerleri doğrulayın.

    HDInsight Linux kullanmaya başlama küme özetini gösteren ekran görüntüsü.

  7. Oluştur'u belirleyin. Bir küme oluşturmak yaklaşık 20 dakika sürer.

    Küme oluşturulduktan sonra, Azure portalında kümeye genel bakış sayfasını görürsünüz.

    HDInsight Linux kullanmaya başlama küme ayarlarını gösteren ekran görüntüsü.

Apache Hive sorguları çalıştırma

Apache Hive HDInsight’ta kullanılan en popüler bileşendir. HDInsight’ta Hive işleri çalıştırmanın birçok yolu vardır. Bu hızlı başlangıçta portaldan Ambari Hive görünümünü kullanacaksınız. Hive işlerini göndermenin diğer yöntemleri için bkz. HDInsight’ta Hive kullanma.

Not

Apache Hive Görünümü HDInsight 4.0'da kullanılamaz.

  1. Ambari’yi açmak için, önceki ekran görüntüsünden Küme Panosu’nu seçin. Ayrıca, önceki bölümde oluşturduğunuz kümenin nerede ClusterName olduğuna da göz atabilirsinizhttps://ClusterName.azurehdinsight.net.

    HDInsight Linux kullanmaya başlama küme panosunu gösteren ekran görüntüsü.

  2. Kümeyi oluştururken belirlediğiniz Hadoop kullanıcı adını ve parolasını girin. Varsayılan kullanıcı adıdır admin.

  3. Aşağıdaki ekran görüntüsünde gösterildiği gibi Hive Görünümü’nü açın:

    Ambari'den Hive Görünümü'nü seçme.

  4. Sayfadaki SORGU sekmesinde, aşağıdaki HiveQL ifadelerini çalışma sayfasına yapıştırın:

    SHOW TABLES;
    

    HDInsight Hive Görünümü Sorgu Düzenleyicisi.

  5. Yürüt'ü seçin. SORGU sekmesinin altında bir SONUÇLAR sekmesi görünür. Bu sekmede işle ilgili bilgiler görüntülenir.

    Sorgu tamamlandıktan sonra SORGU sekmesi işlemin sonuçlarını görüntüler. hivesampletable adlı bir tablo görürsünüz. Bu örnek Hive tablosu tüm HDInsight kümeleri ile birlikte gelir.

    HDInsight Apache Hive görünüm sonuçları.

  6. Aşağıdaki sorguyu çalıştırmak için 4. ve 5. adımı yineleyin:

    SELECT * FROM hivesampletable;
    
  7. Ayrıca sorgunun sonuçlarını da kaydedebilirsiniz. Sağdaki menü düğmesini seçtikten sonra, sonuçları CSV dosyası olarak indirme veya kümeyle ilişkili depolama hesabında depolama seçeneklerinden birini belirleyin.

    Apache Hive sorgusunun sonucunu kaydedin.

Hive işini tamamladıktan sonra sonuçları Azure SQL Veritabanı veya SQL Server veritabanına aktarabilir, ayrıca Sonuçları Excel kullanarak görselleştirebilirsiniz. HDInsight'ta Hive kullanma hakkında daha fazla bilgi için bkz . Örnek bir Apache Log4j dosyasını analiz etmek için HDInsight'ta Apache Hadoop ile Apache Hive ve HiveQL kullanma.

Kaynakları temizleme

Hızlı başlangıcı tamamladıktan sonra kümeyi silmek isteyebilirsiniz. HDInsight ile verileriniz Azure Depolama'da depolanır, böylece kullanımda olmayan bir kümeyi güvenle silebilirsiniz. Kullanımda olmasa bile HDInsight kümesi için de ücretlendirilirsiniz. Küme ücretleri depolama ücretlerinden çok daha fazla olduğundan, kullanımda olmayan kümeleri silmek ekonomik bir anlam ifade eder.

Not

HDInsight üzerinde Hadoop kullanarak ETL işlemlerini çalıştırmayı öğrenmek için bir sonraki makaleye hemen devam ediyorsanız kümeyi çalışır durumda tutmak isteyebilirsiniz. Bunun nedeni, öğreticide hadoop kümesini yeniden oluşturmanız gerekir. Ancak, bir sonraki makaleye hemen geçmeyecekseniz, kümeyi şimdi silmeniz gerekir.

Küme ve/veya varsayılan depolama hesabını silmek için

  1. Azure portalın bulunduğu tarayıcı sekmesine dönün. Kümeye genel bakış sayfasında olmalısınız. Yalnızca kümeyi silmek, ancak varsayılan depolama hesabını korumak istiyorsanız Sil’i seçin.

    Azure HDInsight kümeyi silme.

  2. Kümeyi ve varsayılan depolama hesabını silmek istiyorsanız kaynak grubu sayfasını açmak için kaynak grubu adını (önceki ekran görüntüsünde vurgulanmış) seçin.

  3. Kaynak grubunu sil’i seçerek, kümeyi ve varsayılan depolama hesabını içeren kaynak grubunu silin. Kaynak grubu silindiğinde depolama hesabının da silindiğini unutmayın. Depolama hesabını tutmak istiyorsanız, yalnızca küme silmeyi seçin.

Sonraki adımlar

Bu hızlı başlangıçta, Resource Manager şablonu kullanarak Linux tabanlı HDInsight kümesi oluşturmayı ve temel Hive sorgularını gerçekleştirmeyi öğrendiniz. Sonraki makalede, HDInsight üzerinde Hadoop kullanarak ayıklama, dönüştürme ve yükleme (ETL) işlemi gerçekleştirmeyi öğreneceksiniz.