Diagnostizieren von Kosten- und Leistungsproblemen mithilfe der Spark-Benutzeroberfläche

Dieser Leitfaden führt Sie durch die Verwendung der Spark-Benutzeroberfläche zum Diagnostizieren von Kosten- und Leistungsproblemen. Diese praktische Anleitung ist Schritt für Schritt aufgebaut. Anstatt Ihnen nur eine Erklärung darüber zu geben, welche Funktion jede Seite der Spark-Benutzeroberfläche hat, wird Ihnen mitgeteilt, wonach Sie suchen müssen sowie die jeweilige Bedeutung. Wenn Sie mit den Konzepten von Treibern, Workern, Executors, Phasen und Aufgaben nicht vertraut sind, sollten Sie die Spark-Architektur wiederholen.

Wenn Sie nach einer umfassenden Liste verschiedener Optimierungstools suchen, verwenden Sie den Databricks Optimization Guide. Auf verschiedene Abschnitte dieses Optimierungsleitfadens wird in diesem Leitfaden für die Spark-Benutzeroberfläche verwiesen.

Verwenden dieses Leitfadens

Um durch den Leitfaden zu navigieren, verwenden Sie die auf jeder Seite eingebetteten Links, um zum nächsten Schritt zu gelangen. Dieser Leitfaden enthält die folgenden Schritte in der entsprechenden Reihenfolge:

  1. Verwenden der Zeitachse „Aufträge“ zum Identifizieren wichtiger Probleme
  2. Blick auf die längste Phase
  3. Suche nach Schiefe oder Überlauf
  4. Ermitteln, ob die längste Phase E/A-gebunden ist
  5. Suchen nach anderen Ursachen für langsame Phasenlaufzeit

Dann legen wir los!

So öffnen Sie die Spark-Benutzeroberfläche

  1. Navigieren Sie zur Seite Ihres Clusters.

    Navigation zu „Compute“

  2. Klicken Sie auf Spark-Benutzeroberfläche:

    Navigation zur Spark-Benutzeroberfläche

Nächster Schritt

Überprüfen Sie nach dem Öffnen der Spark-Benutzeroberfläche die Ereigniszeitachse, um mehr über Ihre Pipeline oder Abfrage zu erfahren. Weitere Informationen finden Sie in der Zeitachse „Aufträge“.