HDInsight'ta Apache Hadoop ile Apache Ambari Hive Görünümünü Kullanma

Apache Ambari Hive Görünümünü kullanarak Hive sorgularını çalıştırmayı öğrenin. Hive Görünümü, web tarayıcınızdan Hive sorguları yazmanızı, iyileştirmenizi ve çalıştırmanızı sağlar.

Önkoşullar

HDInsight üzerinde hadoop kümesi. Bkz . Linux'ta HDInsight'ı kullanmaya başlama.

Hive sorgusu çalıştırma

  1. Azure portalda kümenizi seçin. Yönergeler için bkz . Kümeleri listeleme ve gösterme. Küme yeni bir portal görünümünde açılır.

  2. Küme panolarından Ambari görünümleri'ne tıklayın. Kimlik doğrulaması yapmanız istendiğinde, kümeyi oluştururken sağladığınız küme oturum açma (varsayılan admin) hesap adını ve parolasını kullanın. Ayrıca, tarayıcınızda kümenizin adı olan konumuna CLUSTERNAME da gidebilirsinizhttps://CLUSTERNAME.azurehdinsight.net/#/main/views.

  3. Görünüm listesinden Hive Görünümü'nü seçin.

    Apache Ambari, Apache Hive görünümü'nü seçin.

    Hive görünüm sayfası aşağıdaki görüntüye benzer:

    Hive görünümü için sorgu çalışma sayfasının görüntüsü.

  4. Sorgu sekmesinden aşağıdaki HiveQL deyimlerini çalışma sayfasına yapıştırın:

    DROP TABLE log4jLogs;
    CREATE EXTERNAL TABLE log4jLogs(
        t1 string,
        t2 string,
        t3 string,
        t4 string,
        t5 string,
        t6 string,
        t7 string)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
    STORED AS TEXTFILE LOCATION '/example/data/';
    SELECT t4 AS loglevel, COUNT(*) AS count FROM log4jLogs
        WHERE t4 = '[ERROR]'
        GROUP BY t4;
    

    Bu deyimler aşağıdaki eylemleri gerçekleştirir:

    Deyim Açıklama
    DROP TABLE Tablonun zaten mevcut olması durumunda tabloyu ve veri dosyasını siler.
    DıŞ TABLO OLUŞTURMA Hive'da yeni bir "dış" tablo oluşturur. Dış tablolar yalnızca Hive'da tablo tanımını depolar. Veriler özgün konumda bırakılır.
    SATıR BIÇIMI Verilerin nasıl biçimlendirildiğini gösterir. Bu durumda, her günlükteki alanlar bir boşlukla ayrılır.
    TEXTFILE KONUMU OLARAK DEPOLANıR Verilerin nerede depolandığını ve metin olarak depolandığını gösterir.
    SELECT t4 sütununun [ERROR] değerini içerdiği tüm satırların sayısını seçer.

    Önemli

    Veritabanı seçimini varsayılan olarak bırakın. Bu belgedeki örneklerde HDInsight'ta bulunan varsayılan veritabanı kullanılır.

  5. Sorguyu başlatmak için çalışma sayfasının altındaki Yürüt'e tıklayın. Düğme turuncuya dönüşür ve metin Durdur olarak değişir.

  6. Sorgu tamamlandıktan sonra Sonuçlar sekmesi işlemin sonuçlarını görüntüler. Aşağıdaki metin sorgunun sonucudur:

    loglevel       count
    [ERROR]        3
    

    İşin oluşturduğu günlük bilgilerini görüntülemek için LOG sekmesini kullanabilirsiniz.

    İpucu

    Sonuçlar sekmesinin altındaki Eylemler açılan iletişim kutusundan sonuçları indirin veya kaydedin.

Görselde açıklanmaktadır

Sorgu planının görselleştirmesini görüntülemek için çalışma sayfasının altındaki Görsel Açıklar sekmesini seçin.

Sorgunun Görsel Açıklar görünümü, karmaşık sorguların akışını anlamanıza yardımcı olabilir.

Tez Kullanıcı Arabirimi

Sorgunun Tez kullanıcı arabirimini görüntülemek için çalışma sayfasının altındaki Tez ui sekmesini seçin.

Önemli

Tez, tüm sorguları çözümlemek için kullanılmaz. Tez kullanmadan birçok sorgu çözümleyebilirsiniz.

İş geçmişini görüntüleme

İşler sekmesinde Hive sorgularının geçmişi görüntülenir.

Apache Hive görünüm işleri sekme geçmişi.

Veritabanı tabloları

Hive veritabanındaki tablolarla çalışmak için Tablolar sekmesini kullanabilirsiniz.

Apache Hive tabloları sekmesinin görüntüsü.

Kaydedilen sorgular

Sorgu sekmesinden isteğe bağlı olarak sorguları kaydedebilirsiniz. Bir sorguyu kaydettikten sonra, Kaydedilen Sorgular sekmesinden yeniden kullanabilirsiniz.

Apache Hive görünümleri kaydedilen sorgular sekmesi.

İpucu

Kaydedilen sorgular varsayılan küme depolama alanında depolanır. Kaydedilen sorguları yolunun /user/<username>/hive/scriptsaltında bulabilirsiniz. Bunlar düz metin .hql dosyaları olarak depolanır.

Kümeyi siler ancak depolama alanını tutarsanız sorguları almak için Azure Depolama Gezgini veya Data Lake Depolama Gezgini (Azure Portal'dan) gibi bir yardımcı program kullanabilirsiniz.

Kullanıcı tanımlı işlevler

Hive'ı kullanıcı tanımlı işlevler (UDF) aracılığıyla genişletebilirsiniz. HiveQL'de kolayca modellenmeyecek işlevleri veya mantığı uygulamak için UDF kullanın.

Hive Görünümünün en üstündeki UDF sekmesini kullanarak bir UDF kümesi bildirin ve kaydedin. Bu UDF'ler Sorgu Düzenleyicisi ile kullanılabilir.

Apache Hive görünümü UDF'leri sekme görüntüsü.

Sorgu Düzenleyicisi en altında udfs ekle düğmesi görüntülenir. Bu girdi, Hive Görünümünde tanımlanan UDF'lerin açılan listesini görüntüler. UDF seçildiğinde, UDF'yi etkinleştirmek için sorgunuza HiveQL deyimleri eklenir.

Örneğin, aşağıdaki özelliklere sahip bir UDF tanımladıysanız:

  • Kaynak adı: myudfs

  • Kaynak yolu: /myudfs.jar

  • UDF adı: myawesomeudf

  • UDF sınıf adı: com.myudfs.Awesome

udfs Ekle düğmesi kullanıldığında myudfs adlı bir girdi görüntülenir ve bu kaynak için tanımlanan her UDF için başka bir açılan liste görüntülenir. Bu durumda, myawesomeudf. Bu girişin seçilmesi sorgunun başına aşağıdakileri ekler:

add jar /myudfs.jar;
create temporary function myawesomeudf as 'com.myudfs.Awesome';

Ardından sorgunuzda UDF'yi kullanabilirsiniz. Örneğin, SELECT myawesomeudf(name) FROM people;.

HDInsight üzerinde Hive ile UDF'leri kullanma hakkında daha fazla bilgi için aşağıdaki makalelere bakın:

Hive ayarları

Tez (varsayılan) olan Hive yürütme altyapısını MapReduce olarak değiştirme gibi çeşitli Hive ayarlarını değiştirebilirsiniz.

Sonraki adımlar

HDInsight üzerinde Hive hakkında genel bilgi için: