Kennenlernen der Phasen bei der Verarbeitung von Big Data
Data Lakes spielen bei vielen Big Data-Architekturen eine wichtige Rolle. Diese Architekturen werden unter anderem für Folgendes eingesetzt:
- Ein Enterprise Data Warehouse.
- Erweiterte Big Data-Analysen
- Lösungen für die Echtzeitanalyse
Architekturunabhängig gibt es vier Phasen, die bei allen Lösungen für die Verarbeitung von Big Data gleich sind.
- Erfassung: In dieser Phase werden die Technologien und Vorgänge festgelegt, die zum Erfassen der Quelldaten verwendet werden sollen. Diese Daten können aus Dateien, Protokollen oder anderen unstrukturierten Datentypen stammen, die im Data Lake erfasst werden müssen. Die verwendete Technologie hängt davon ab, wie häufig die Daten übertragen werden müssen. Pipelines in Azure Synapse Analytics oder Azure Data Factory sind beispielsweise die am besten geeigneten Technologien für das Verschieben von Daten in Batches. Für die Echtzeiterfassung von Daten sind Apache Kafka für HDInsight oder Stream Analytics vielleicht besser geeignet.
- Speichern: In dieser Phase wird festgelegt, wo die erfassten Daten gespeichert werden sollen. Azure Data Lake Storage Gen2 bietet eine sichere und skalierbare Speicherlösung, die mit häufig verwendeten Big Data-Verarbeitungstechnologien kompatibel ist.
- Vorbereitung und Training: In dieser Phase werden die Technologien ermittelt, mit denen die Daten vorbereitet, Modelle trainiert und die Ergebnisse für Machine Learning-Lösungen bewertet werden sollen. In dieser Phase werden häufig Technologien wie Azure Synapse Analytics, Azure Databricks, Azure HDInsight und Azure Machine Learning verwendet.
- Modellerstellung und Präsentation: In dieser letzten Phase geht es um die Technologien, mit denen die Daten den Benutzern präsentiert werden. Diese Technologien können Visualisierungstools wie Microsoft Power BI oder analytische Datenspeicher wie Azure Synapse Analytics umfassen. Je nach Anforderungen der Unternehmen wird häufig eine Kombination mehrerer dieser Technologien eingesetzt.