Erstellen eines Apache Flink-Clusters® in HDInsight auf AKS mit Azure-Portal

Hinweis

Azure HDInsight on AKS wird am 31. Januar 2025 eingestellt. Vor dem 31. Januar 2025 müssen Sie Ihre Workloads zu Microsoft Fabric oder einem gleichwertigen Azure-Produkt migrieren, um eine abruptes Beendigung Ihrer Workloads zu vermeiden. Die verbleibenden Cluster in Ihrem Abonnement werden beendet und vom Host entfernt.

Bis zum Einstellungsdatum ist nur grundlegende Unterstützung verfügbar.

Wichtig

Diese Funktion steht derzeit als Vorschau zur Verfügung. Die zusätzlichen Nutzungsbedingungen für Microsoft Azure-Vorschauen enthalten weitere rechtliche Bestimmungen, die für Azure-Features in Betaversionen, in Vorschauversionen oder anderen Versionen gelten, die noch nicht allgemein verfügbar gemacht wurden. Informationen zu dieser spezifischen Vorschau finden Sie unter Informationen zur Vorschau von Azure HDInsight on AKS. Bei Fragen oder Funktionsvorschlägen senden Sie eine Anfrage an AskHDInsight mit den entsprechenden Details, und folgen Sie uns für weitere Updates in der Azure HDInsight-Community.

Führen Sie die folgenden Schritte aus, um einen Apache Flink-Cluster im Azure-Portal zu erstellen.

Voraussetzungen

Erfüllen Sie die Voraussetzungen in den folgenden Abschnitten:

Wichtig

  • Um einen Cluster in einem neuen Clusterpool zu erstellen, weisen Sie der MSI des AKS-Agentpools die Rolle „Operator für verwaltete Identität“ für die benutzerseitig zugewiesene verwaltete Identität zu, die im Rahmen der Ressourcenvoraussetzungen erstellt wurde. Falls Sie über erforderliche Berechtigungen verfügen, wird dieser Schritt während der Erstellung automatisiert.
  • Die verwaltete Identität des AKS-Agentpools wird während der Erstellung des Clusterpools erstellt. Sie können die verwaltete Identität des AKS-Agentpools anhand von (Ihr Clusterpoolname)-agentpool ermitteln. Führen Sie zum Zuweisen der Rolle diese Schritte aus.

Flink-Cluster können erstellt werden, nachdem die Bereitstellung eines Clusterpools abgeschlossen wurde. Sehen wir uns die Schritte für den Fall an, dass Sie mit einem vorhandenen Clusterpool beginnen.

  1. Geben Sie im Azure-Portal HDInsight-Clusterpools/HDInsight/HDInsight on AKS ein, und wählen Sie Azure HDInsight on AKS-Clusterpools aus, um zur Seite „Clusterpools“ zu navigieren. Wählen Sie auf der Seite „HDInsight on AKS-Clusterpools“ den Clusterpool aus, in dem Sie einen neuen Flink-Cluster erstellen möchten.

    Diagramm: Suchleiste im Azure-Portal.

  2. Klicken Sie auf der Seite für einen bestimmten Clusterpool auf + Neuer Cluster, und geben Sie die folgenden Informationen an:

    Eigenschaft BESCHREIBUNG
    Subscription Dieses Feld wird automatisch mit dem Azure-Abonnement aufgefüllt, das für den Clusterpool registriert wurde.
    Ressourcengruppe Dieses Feld wird automatisch aufgefüllt und zeigt die Ressourcengruppe im Clusterpool an.
    Region Dieses Feld wird automatisch aufgefüllt und zeigt die für den Clusterpool ausgewählte Ressourcengruppe an.
    Clusterpool Dieses Feld wird automatisch aufgefüllt und zeigt den Namen des Clusterpools an, mit dem der Cluster jetzt erstellt wird. Um einen Cluster in einem anderen Pool zu erstellen, suchen Sie diesen Clusterpool im Portal, und klicken Sie auf + Neuer Cluster.
    Version des HDInsight on AKS-Pools Dieses Feld wird automatisch aufgefüllt und zeigt die Version des Clusterpools an, mit der der Cluster jetzt erstellt wird.
    HDInsight on AKS-Version Wählen Sie die Neben- oder Patchversion der HDInsight on AKS-Version des neuen Clusters aus.
    Clustertyp Wählen Sie in der Dropdownliste „Flink“ aus.
    Clustername Geben Sie den Namen des neuen Clusters ein.
    Benutzerseitig zugewiesene verwaltete Identität Wählen Sie in der Dropdownliste die verwaltete Identität aus, die mit dem Cluster verwendet werden soll. Wenn Sie der Besitzer oder die Besitzerin der verwalteten Dienstidentität (Managed Service Identity, MSI) sind und die MSI nicht über die Rolle „Operator für verwaltete Identität“ im Cluster verfügt, klicken Sie auf den Link unterhalb des Felds, um die für die MSI des AKS-Agentpools erforderliche Berechtigung zuzuweisen. Wenn die MSI bereits über die richtigen Berechtigungen verfügt, wird kein Link angezeigt. Weitere Rollenzuweisungen, die für die MSI erforderlich sind, finden Sie unter Voraussetzungen.
    Speicherkonto Wählen Sie in der Dropdownliste das Speicherkonto aus, das dem Flink-Cluster zugeordnet werden soll, und geben Sie den Containernamen an. Der verwalteten Identität wird außerdem mithilfe der Rolle „Besitzer von Speicherblobdaten“ Zugriff auf das angegebene Speicherkonto gewährt.
    Virtuelles Netzwerk Das virtuelle Netzwerk für den Cluster.
    Subnet Das virtuelle Subnetz für den Cluster.
  3. Aktivieren des Hive-Katalogs für Flink SQL

    Eigenschaft Beschreibung
    Hive-Katalog verwenden Aktivieren Sie diese Option, um einen externen Hive-Metastore zu verwenden.
    SQL-Datenbank für Hive Wählen Sie in der Dropdownliste die SQL-Datenbank-Instanz aus, in der Hive-Metastore-Tabellen hinzugefügt werden sollen.
    SQL-Administratorbenutzername Geben Sie den SQL Server-Administratorbenutzernamen ein. Dieses Konto wird vom Metastore verwendet, um mit SQL-Datenbank zu kommunizieren.
    Key Vault (Schlüsseltresor) Wählen Sie in der Dropdownliste die Key Vault-Instanz aus, die ein Geheimnis mit Kennwort für den SQL Server-Administratorbenutzernamen enthält. Sie müssen eine Zugriffsrichtlinie mit allen erforderlichen Berechtigungen wie Schlüsselberechtigungen, Geheimnisberechtigungen und Zertifikatberechtigungen für die MSI einrichten, die für die Clustererstellung verwendet wird. Die MSI benötigt eine Key Vault-Administratorrolle. Fügen Sie die erforderlichen Berechtigungen mithilfe von IAM hinzu.
    Name des geheimen SQL-Kennworts Geben Sie den Geheimnisnamen aus der Key Vault-Instanz ein, in der das Kennwort für SQL-Datenbank gespeichert ist.

    Screenshot mit der Registerkarte „Grundlagen“

    Hinweis

    Standardmäßig verwenden wir für den Hive-Katalog dasselbe Speicherkonto und denselben Container, die auch bei der Clustererstellung verwendet wurden.

  4. Klicken Sie auf Weiter: Konfiguration, um fortzufahren.

  5. Geben Sie auf der Seite Konfiguration die folgenden Informationen ein:

    Eigenschaft Beschreibung
    Knotengröße Wählen Sie die Knotengröße aus, die für die Haupt- und Workerknoten der Flink-Knoten verwendet werden soll.
    Anzahl von Knoten Wählen Sie die Anzahl der Knoten für den Flink-Cluster aus. Standardmäßig sind zwei Hauptknoten festgelegt. Die Größe der Workerknoten hilft bei der Ermittlung der Task-Manager-Konfigurationen für Flink. Der Auftrags-Manager und der Verlaufsserver befinden sich auf Hauptknoten.
  6. Geben Sie im Abschnitt Serverkonfiguration die folgenden Informationen ein:

    Eigenschaft Beschreibung
    Task-Manager-CPU Integer. Geben Sie die Größe der Task-Manager-CPUs (in Kernen) ein.
    Task-Manager-Speicher in MB Geben Sie die Größe des Task-Manager-Speichers in MB ein. Mind. 1.800 MB
    Auftrags-Manager-CPU Integer. Geben Sie die Anzahl der CPUs für den Auftrags-Manager (in Kernen) ein.
    Speicher des Auftrags-Managers in MB Geben Sie die Speichergröße in MB an. Mind. 1.800 MB
    Verlaufsserver-CPU Integer. Geben Sie die Anzahl der CPUs für den Auftrags-Manager (in Kernen) ein.
    Verlaufsserverspeicher in MB Geben Sie die Speichergröße in MB an. Mind. 1.800 MB

    Screenshot der Registerkarte „Konfigurationen“

    Hinweis

    • Der Verlaufsserver kann bei Bedarf aktiviert/deaktiviert werden.
    • Die zeitplanbasierte Autoskalierung wird in Flink unterstützt. Sie können die Anzahl der Workerknoten nach Bedarf planen. Beispielsweise wird eine zeitplanbasierte Autoskalierung mit einer Standardanzahl von drei Workerknoten aktiviert. An Wochentagen von 9:00 Uhr UTC bis 20:00 Uhr UTC werden zehn Workerknoten geplant. Später am Tag muss die Anzahl standardmäßig auf drei Knoten festgelegt werden ( zwischen 20:00 Uhr UTC und 09:00 Uhr UTC am nächsten Tag). Am Wochenende sind von 9:00 Uhr UTC bis 20:00 Uhr UTC vier Workerknoten festgelegt.
  7. Aktualisieren Sie im Abschnitt Autoskalierung und SSH Folgendes:

    Eigenschaft Beschreibung
    Automatische Skalierung Bei der Auswahl können Sie die zeitplanbasierte Autoskalierung auswählen, um den Zeitplan für Skalierungsvorgänge zu konfigurieren.
    Aktivieren von SSH Bei der Auswahl können Sie die Gesamtanzahl der erforderlichen SSH-Knoten festlegen, bei denen es sich um die Zugriffspunkte für die Flink CLI mit Secure Shell handelt. Die maximal zulässige Anzahl von SSH-Knoten beträgt 5.

    Screenshot der Konfiguration des Autoskalierungsdiensts

    Screenshot mit Regeln für die automatische Skalierung

  8. Klicken Sie auf die Schaltfläche Weiter: Integration, um auf der nächsten Seite fortzufahren.

  9. Geben Sie auf der Seite Integration die folgenden Informationen ein:

    Eigenschaft Beschreibung
    Log Analytics Dieses Feature ist nur verfügbar, wenn dem Clusterpool ein Log Analytics-Arbeitsbereich zugeordnet ist. Nach der Aktivierung können die Protokolle, die erfasst werden sollen, ausgewählt werden.
    Azure Prometheus Dieses Feature dient dazu, Erkenntnisse und Protokolle direkt im Cluster anzuzeigen, indem Sie Metriken und Protokolle an einen Azure Monitor-Arbeitsbereich senden.

    Screenshot der Registerkarte „Integrationen“

  10. Klicken Sie auf die Schaltfläche Weiter: Tags, um auf der nächsten Seite fortzufahren.

  11. Geben Sie auf der Seite Tags die folgenden Informationen ein:

    Eigenschaft Beschreibung
    Name Optional. Geben Sie einen Namen wie „HDInsight on AKS“ ein, um einfach alle Ressourcen zu identifizieren, die Ihren Clusterressourcen zugeordnet sind.
    Wert Kann leer bleiben.
    Ressource Wählen Sie „Alle Ressourcen ausgewählt“ aus.
  12. Wählen Sie zum Fortfahren Next. Review + create (Weiter: Überprüfen + erstellen) aus.

  13. Suchen Sie auf der Seite Überprüfen + erstellen nach der Meldung Validierung erfolgreich oben auf der Seite, und klicken Sie dann auf Erstellen.

Die Seite Bereitstellung wird gerade durchgeführt. wird mit dem Cluster angezeigt, der gerade erstellt wird. Die Erstellung des Clusters dauert fünf bis zehn Minuten. Nachdem der Cluster erstellt wurde, wird die Meldung Ihre Bereitstellung wurde abgeschlossen. angezeigt. Wenn Sie von der Seite weg navigieren, können Sie Ihre Benachrichtigungen auf den aktuellen Status überprüfen.

Hinweis

Apache, Apache Flink, Flink und zugehörige Open Source-Projektnamen sind Handelsmarken der Apache Software Foundation (ASF).