Erfolgreiche Synapse-Implementierungsmethode: Arbeitsbereichsentwurf auswerten

Hinweis

Dieser Artikel gehört zu der Artikelserie Erfolg der Azure Synapse-Implementierung nach Design. Eine Übersicht über diese Serie finden Sie unter Azure Synapse-Implementierungserfolg nach Design.

Der Synapse-Arbeitsbereich ist eine einheitliche grafische Benutzeroberfläche, die Ihre Analyse- und Datenverarbeitungs-Engines, Data Lakes, Datenbanken, Tabellen, Datasets und Berichtsartefakte zusammen mit Code und Prozessorchestrierung zusammenführt. In Anbetracht der Vielzahl von Technologien und Diensten, die in den Synapse-Arbeitsbereich integriert sind, sollten Sie sicherstellen, dass die wichtigsten Komponenten in Ihrem Entwurf enthalten sind.

Überprüfen des Synapse-Arbeitsbereichsentwurfs

Bestimmen Sie, ob Ihr Lösungsentwurf einen Synapse-Arbeitsbereich oder mehrere Arbeitsbereiche umfasst. Ermitteln Sie die Treiber für diesen Entwurf. Auch wenn es verschiedene Gründe dafür geben kann, so ist der Grund für mehrere Arbeitsbereiche in den meisten Fällen entweder die Trennung der Sicherheitsbereiche oder die Trennung der Abrechnungsbereiche. Beachten Sie bei der Festlegung der Anzahl der Arbeitsbereiche und der Datenbankgrenzen, dass es einen Grenzwert von 20 Arbeitsbereichen pro Abonnement gibt.

Ermitteln Sie, welche Elemente oder Dienste in jedem Arbeitsbereich freigegeben werden müssen und mit welchen Ressourcen dies erfolgt. Zu den Ressourcen können Data Lakes, Integration Runtimes (IRs), Metadaten oder Konfigurationen und Code gehören. Ermitteln Sie, warum dieser spezielle Entwurf im Hinblick auf mögliche Synergien gewählt wurde. Fragen Sie sich, ob diese Synergien die zusätzlichen Kosten und den Verwaltungsaufwand rechtfertigen.

Überprüfen des Data Lake-Entwurfs

Wir empfehlen, dass der Data Lake (wenn er Teil Ihrer Lösung ist) richtig gestaffelt ist. Sie sollten Ihren Data Lake in drei Hauptbereiche unterteilen, die sich auf Datasets vom Typ Bronze, Silber und Gold beziehen. Bronze – oder die Rohdatenebene – kann sich auf einem eigenen Speicherkonto befinden, da für sie strengere Zugriffssteuerungen gelten, da sie vertrauliche Daten speichern könnte.

Überprüfen des Sicherheitsentwurfs

Überprüfen Sie den Sicherheitsentwurf für den Arbeitsbereich, und vergleichen Sie ihn mit den Informationen, die Sie während der Bewertung gesammelt haben. Stellen Sie sicher, dass alle Anforderungen erfüllt sind und alle Einschränkungen berücksichtigt wurden. Um die Verwaltung zu vereinfachen, empfehlen wir, die Benutzer in Gruppen mit entsprechenden Berechtigungsprofilen zu organisieren: Sie können die Zugriffssteuerung vereinfachen, indem Sie Sicherheitsgruppen verwenden, die mit Rollen übereinstimmen. Auf diese Weise können Netzwerkadministratoren Benutzer zu den entsprechenden Sicherheitsgruppen hinzufügen oder aus diesen entfernen, um den Zugriff zu verwalten.

Serverlose SQL-Pools und Apache Spark-Tabellen speichern ihre Daten in einem Azure Data Lake Gen2-Container (ADLS Gen2), der dem Arbeitsbereich zugeordnet ist. Vom Benutzer installierte Apache Spark-Bibliotheken werden auch unter demselben Speicherkonto verwaltet. Um diese Anwendungsfälle zu ermöglichen, müssen sowohl die Benutzer als auch die Identität des verwalteten Diensts im Arbeitsbereich (MSI) zur Rolle Mitwirkender an Storage-Blobdaten des ADLS Gen2-Speichercontainers hinzugefügt werden. Überprüfen Sie diese Anforderung anhand Ihrer Sicherheitsanforderungen.

Dedizierte SQL-Pools bieten eine Vielzahl von Sicherheitsfeatures zur Verschlüsselung und Maskierung vertraulicher Daten. Sowohl dedizierte als auch serverlose SQL-Pools ermöglichen die gesamte Oberfläche der SQL Server-Berechtigungen, einschließlich integrierter Rollen, benutzerdefinierter Rollen, SQL-Authentifizierung und Microsoft Entra-Authentifizierung. Überprüfen Sie den Sicherheitsentwurf für den Zugriff und die Daten des dedizierten SQL-Pools und des serverlosen SQL-Pools Ihrer Lösung.

Überprüfen Sie den Sicherheitsplan für Ihren Data Lake und alle ADLS Gen2-Speicherkonten (und andere), die Teil Ihrer Azure Synapse Analytics-Lösung sein werden. Der ADLS Gen2-Speicher ist selbst keine Compute-Engine und verfügt daher nicht über eine integrierte Möglichkeit, Datenattribute selektiv zu maskieren. Sie können ADLS Gen2-Berechtigungen auf der Speicherkonto- oder Containerebene mithilfe der rollenbasierten Zugriffssteuerung (RBAC) und/oder auf der Ordner- oder Dateiebene mithilfe von Zugriffssteuerungslisten (ACLs) anwenden. Überprüfen Sie den Entwurf sorgfältig und bemühen Sie sich, unnötige Komplexität zu vermeiden.

Hier sind einige Punkte, die Sie beim Sicherheitsentwurf berücksichtigen sollten.

  • Stellen Sie sicher, dass die Anforderungen für das Einrichten von Microsoft Entra ID im Entwurf enthalten sind.
  • Prüfen Sie auf mandantenübergreifende Szenarien. Solche Probleme können entstehen, weil sich einige Daten in einem anderen Azure-Mandanten befinden, in einen anderen Mandanten verschoben werden müssen oder Benutzer aus einem anderen Mandanten auf sie zugreifen müssen. Stellen Sie sicher, dass diese Szenarien in Ihrem Entwurf berücksichtigt werden.
  • Welche Rollen gibt es für die einzelnen Arbeitsbereiche? Wie werden sie den Arbeitsbereich verwenden?
  • Wie ist die Sicherheit im Arbeitsbereich gestaltet?
    • Wer kann alle Skripts, Notebooks und Pipelines anzeigen?
    • Wer kann Skripts und Pipelines ausführen?
    • Wer kann SQL- und Spark-Pools erstellen/anhalten/fortsetzen?
    • Wer kann Änderungen im Arbeitsbereich veröffentlichen?
    • Wer kann Änderungen an die Quellcodeverwaltung committen?
  • Werden Pipelines mithilfe von gespeicherten Anmeldeinformationen oder der im Arbeitsbereich verwalteten Identität auf Daten zugreifen?
  • Verfügen die Benutzer über den entsprechenden Zugriff auf den Data Lake, um die Daten in Synapse Studio zu durchsuchen?
  • Ist der Data Lake ordnungsgemäß gesichert, indem Sie eine geeignete Kombination aus RBAC und ACLs verwenden?
  • Sind die Benutzerrechte für den SQL-Pool für jede Rolle (Wissenschaftliche Fachkraft für Daten, Entwickler, Administrator, Geschäftsanwender und andere) richtig festgelegt worden?

Überprüfen des Netzwerkentwurfs

Hier sind einige Punkte, die Sie beim Netzwerkentwurf berücksichtigen sollten.

  • Ist die Konnektivität zwischen allen Ressourcen konzipiert?
  • Welcher Netzwerkmechanismus soll verwendet werden (Azure ExpressRoute, öffentliches Internet oder private Endpunkte)?
  • Müssen Sie eine sichere Verbindung mit Synapse Studio herstellen können?
  • Wurde die Datenexfiltration berücksichtigt?
  • Benötigen Sie eine Verbindung mit lokalen Datenquellen?
  • Benötigen Sie eine Verbindung mit anderen Clouddatenquellen oder Compute-Engines, z. B. Azure Machine Learning?
  • Wurden Azure-Netzwerkkomponenten, wie Netzwerksicherheitsgruppen (NSGs), auf ordnungsgemäße Konnektivität und Datenverschiebung überprüft?
  • Wurde die Integration mit den privaten DNS-Zonen in Betracht gezogen?
  • Müssen Sie in der Lage sein, den Data Lake von Synapse Studio aus zu durchsuchen oder einfach Daten im Data Lake mit serverlosem SQL oder PolyBase abzufragen?

Identifizieren Sie schließlich alle Ihre Datenconsumer und stellen Sie sicher, dass ihre Konnektivität im Entwurf berücksichtigt wird. Vergewissern Sie sich, dass die Netzwerk- und Sicherheitsposten Ihrem Dienst den Zugriff auf die erforderlichen lokalen Quellen erlauben und dass seine Authentifizierungsprotokolle und -mechanismen unterstützt werden. In einigen Szenarien benötigen Sie möglicherweise mehr als eine selbstgehostete IR oder ein Datengateway für SaaS-Lösungen wie Microsoft Power BI.

Überprüfen des Überwachungsentwurfs

Überprüfen Sie den Entwurf der Überwachung der Azure Synapse-Komponenten, um sicherzustellen, dass sie die während der Bewertung ermittelten Anforderungen und Erwartungen erfüllen. Überprüfen Sie, ob die Überwachung der Ressourcen und des Datenzugriffs konzipiert wurde und ob alle Überwachungsanforderungen identifiziert wurden. Eine robuste Überwachungslösung sollte bereits bei der ersten Bereitstellung in der Produktion eingesetzt werden. Auf diese Weise können Fehler rechtzeitig erkannt, diagnostiziert und behoben werden. Neben der Basisinfrastruktur und den Pipelineausführungen sollten auch die Daten überwacht werden. Je nachdem, welche Azure Synapse-Komponenten Sie verwenden, ermitteln Sie die Überwachungsanforderungen für die einzelnen Komponenten. Wenn z. B. Spark-Pools Teil der Lösung sind, überwachen Sie den Speicher für nicht wohlgeformte Datensätze. 

Hier sind einige Punkte, die Sie beim Überwachungsentwurf berücksichtigen sollten.

  • Wer kann die einzelnen Ressourcentypen (Pipelines, Pools und andere) überwachen?
  • Wie lange müssen die Protokolle der Datenbankaktivitäten aufbewahrt werden?
  • Werden Arbeitsbereich und Datenbankprotokolle mithilfe von Log Analytics oder Azure Storage aufbewahrt?
  • Werden im Falle eines Pipelinefehlers Warnungen ausgelöst? Wenn ja, wer sollte benachrichtigt werden?
  • Welcher Schwellenwert eines SQL-Pools sollte eine Warnung auslösen? Wer sollte benachrichtigt werden?

Überprüfen des Quellcodeverwaltungsentwurfs

Standardmäßig wendet ein Synapse-Arbeitsbereich Änderungen direkt auf den Synapse-Dienst an, mithilfe der integrierten Veröffentlichungsfunktion. Sie können die Integration der Quellcodeverwaltung aktivieren, was viele Vorteile mit sich bringt. Zu den Vorteilen gehören eine bessere Zusammenarbeit, Versionsverwaltung, Genehmigungen und Releasepipelines, um Änderungen in Entwicklungs-, Test- und Produktionsumgebungen höher zu stufen. Azure Synapse erlaubt ein einzelnes Repository für die Quellcodeverwaltung pro Arbeitsbereich, das entweder Azure DevOps Git oder GitHub sein kann.

Hier sind einige Punkte, die Sie beim Entwurf der Quellcodeverwaltung berücksichtigen sollten.

  • Wenn Sie Azure DevOps Git verwenden, befinden sich der Synapse-Arbeitsbereich und sein Repository im selben Mandanten?
  • Wer wird auf die Quellcodeverwaltung zugreifen können?
  • Welche Berechtigungen erhält jeder Benutzer in der Quellcodeverwaltung?
  • Wurde eine Strategie für Verzweigung und Zusammenführung entwickelt?
  • Werden Releasepipelines für die Bereitstellung in verschiedenen Umgebungen entwickelt?
  • Wird ein Genehmigungsverfahren für die Zusammenführung und für Releasepipelines verwendet?

Hinweis

Der Entwurf der Entwicklungsumgebung ist von entscheidender Bedeutung für den Erfolg Ihres Projekts. Wenn eine Entwicklungsumgebung entworfen wurde, wird sie in einer separaten Phase dieser Methodik ausgewertet.

Nächste Schritte

Im nächsten Artikel der Serie Mit dem richtigen Azure Synapse-Entwurf zum Erfolg erfahren Sie, wie Sie den Entwurf der Datenintegration auswerten und überprüfen, ob er den Richtlinien und Anforderungen entspricht.