Wybieranie technologii przetwarzania wsadowego na platformie Azure

Artykuł
08/01/2024

Rozwiązania do obsługi danych big data często składają się z dyskretnych zadań przetwarzania wsadowego, które przyczyniają się do ogólnego rozwiązania do przetwarzania danych. Przetwarzanie wsadowe można używać dla obciążeń, które nie wymagają natychmiastowego dostępu do szczegółowych informacji. Przetwarzanie wsadowe może uzupełniać wymagania dotyczące przetwarzania w czasie rzeczywistym. Możesz również użyć przetwarzania wsadowego, aby zrównoważyć złożoność i zmniejszyć koszty ogólnej implementacji.

Podstawowym wymaganiem aparatów przetwarzania wsadowego jest skalowanie obliczeń w poziomie w celu obsługi dużej ilości danych. W przeciwieństwie do przetwarzania w czasie rzeczywistym przetwarzanie wsadowe ma opóźnienia lub czas między pozyskiwaniem i przetwarzaniem danych w ciągu kilku minut lub godzin.

Wybieranie technologii przetwarzania wsadowego

Firma Microsoft oferuje kilka usług, których można użyć do przetwarzania wsadowego.

Microsoft Fabric

Microsoft Fabric to platforma do analizy i danych typu all-in-one dla organizacji. Jest to oferta oprogramowania jako usługi, która upraszcza aprowizację kompleksowego rozwiązania analitycznego, zarządzanie nim i zarządzanie nim. Sieć szkieletowa obsługuje przenoszenie, przetwarzanie, pozyskiwanie, przekształcanie i raportowanie danych. Funkcje sieci szkieletowej używane do przetwarzania wsadowego obejmują inżynierię danych, magazyny danych, magazyny danych, magazyny lakehouse i przetwarzanie platformy Apache Spark. Usługa Azure Data Factory w usłudze Fabric obsługuje również magazyny lakehouse. Aby uprościć i przyspieszyć opracowywanie, możesz włączyć oparty na sztucznej inteligencji copilot.

Języki: R, Python, Java, Scala i SQL
Zabezpieczenia: Zarządzana sieć wirtualna i kontrola dostępu oparta na rolach w usłudze OneLake (RBAC)
Magazyn podstawowy: OneLake, który ma skróty i opcje dublowania
Spark: wstępnie wypełnianie puli początkowej i niestandardowej puli Spark ze wstępnie zdefiniowanymi rozmiarami węzłów

Azure Synapse Analytics

Azure Synapse Analytics to usługa analizy przedsiębiorstwa, która łączy technologie SQL i Spark w ramach jednej konstrukcji obszaru roboczego. Usługa Azure Synapse Analytics upraszcza zabezpieczenia, nadzór i zarządzanie. Każdy obszar roboczy ma zintegrowane potoki danych, których można użyć do tworzenia pełnych przepływów pracy. Możesz również aprowizować dedykowaną pulę SQL na potrzeby analizy na dużą skalę, bezserwerowego punktu końcowego SQL, którego można użyć do bezpośredniego wykonywania zapytań względem magazynu typu lake oraz środowiska uruchomieniowego Platformy Spark na potrzeby rozproszonego przetwarzania danych.

Języki: Python, Java, Scala i SQL
Zabezpieczenia: Zarządzana sieć wirtualna, kontrola dostępu oparta na rolach i kontrola dostępu oraz listy kontroli dostępu do magazynu w usłudze Azure Data Lake Storage
Magazyn podstawowy: usługa Data Lake Storage, a także integruje się z innymi źródłami
Spark: niestandardowa konfiguracja platformy Spark z wstępnie zdefiniowanymi rozmiarami węzłów

Azure Databricks

Azure Databricks to platforma analizy oparta na platformie Spark. Oferuje ona zaawansowane i premium funkcje platformy Spark, które są oparte na platformie Spark typu open source. Azure Databricks to usługa firmy Microsoft, która integruje się z resztą usług platformy Azure. Oferuje ona dodatkowe konfiguracje wdrożeń klastra Spark. Katalog aparatu Unity ułatwia uproszczenie ładu obiektów platformy Spark usługi Azure Databricks.

Języki: R, Python, Java, Scala i Spark SQL.
Zabezpieczenia: uwierzytelnianie użytkownika za pomocą identyfikatora Entra firmy Microsoft.
Magazyn podstawowy: wbudowana integracja z usługą Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics i innymi usługami. Aby uzyskać więcej informacji, zobacz Źródła danych.

Inne korzyści obejmują:

Notesy internetowe do współpracy i eksploracji danych.
Szybkie czasy uruchamiania klastra, automatyczne kończenie i skalowanie automatyczne.
Obsługa klastrów z obsługą procesora GPU.

Kluczowe kryteria wyboru

Aby wybrać technologię przetwarzania wsadowego, rozważ następujące pytania:

Czy chcesz zarządzać usługą zarządzaną, czy chcesz zarządzać własnymi serwerami?
Czy chcesz utworzyć logikę przetwarzania wsadowego deklaratywnie lub imperatywnie?
Czy wykonujesz przetwarzanie wsadowe w seriach? Jeśli tak, rozważ opcje, które umożliwiają automatyczne zakończenie klastra lub modele cenowe dla każdego zadania wsadowego.
Czy należy wykonywać zapytania dotyczące relacyjnych magazynów danych wraz z przetwarzaniem wsadowym, na przykład w celu wyszukania danych referencyjnych? Jeśli tak, rozważ opcje, które zapewniają możliwość wykonywania zapytań względem zewnętrznych magazynów relacyjnych.

Macierz możliwości

W poniższych tabelach podsumowano kluczowe różnice w możliwościach między usługami.

Ogólne możliwości

Możliwość	Sieć szkieletowa	Azure Synapse Analytics	Azure Databricks
Oprogramowanie jako usługa	Tak¹	Nie.	Nie.
Usługa zarządzana	Nie.	Tak	Tak
Relacyjny magazyn danych	Tak	Tak	Tak
Model cen	Jednostki pojemności	Pula SQL lub godzina klastra	Jednostka ² i godzina klastra usługi Azure Databricks

[1] Przypisana pojemność sieci szkieletowej.

[2] Jednostka usługi Azure Databricks to możliwość przetwarzania na godzinę.

Inne możliwości

Możliwość	Sieć szkieletowa	Azure Synapse Analytics	Azure Databricks
Skalowanie automatyczne	Nie	Nie.	Tak
Stopień szczegółowości skalowania w poziomie	Jednostka SKU na sieć szkieletową	Na klaster lub pulę SQL	Na klaster
Buforowanie danych w pamięci	Nie.	Tak	Tak
Wykonywanie zapytań z relacyjnych magazynów zewnętrznych	Tak	Nie	Tak
Uwierzytelnianie	Microsoft Entra ID	SQL lub Microsoft Entra ID	Microsoft Entra ID
Inspekcja	Tak	Tak	Tak
Zabezpieczenia na poziomie wiersza	Tak	Tak ¹	Tak
Obsługuje zapory	Tak	Tak	Tak
Dynamiczne maskowanie danych	Tak	Tak	Tak

[1] Tylko predykaty filtru. Aby uzyskać więcej informacji, zobacz Zabezpieczenia na poziomie wiersza.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Autorzy zabezpieczeń:

Zoiner Tejada | Dyrektor generalny i architekt
Pratima Valavala | Główny architekt rozwiązań

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Udostępnij za pośrednictwem

Wybieranie technologii przetwarzania wsadowego na platformie Azure

Wybieranie technologii przetwarzania wsadowego

Microsoft Fabric

Azure Synapse Analytics

Azure Databricks

Kluczowe kryteria wyboru

Macierz możliwości

Ogólne możliwości

Inne możliwości

Współautorzy

Następne kroki

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Wybieranie technologii przetwarzania wsadowego na platformie Azure

Wybieranie technologii przetwarzania wsadowego

Microsoft Fabric

Azure Synapse Analytics

Azure Databricks

Kluczowe kryteria wyboru

Macierz możliwości

Ogólne możliwości

Inne możliwości

Współautorzy

Następne kroki

Powiązane zasoby

Opinia

Dodatkowe zasoby