Wybieranie technologii przetwarzania wsadowego na platformie Azure

Rozwiązania do obsługi danych big data często składają się z dyskretnych zadań przetwarzania wsadowego, które przyczyniają się do ogólnego rozwiązania do przetwarzania danych. Przetwarzanie wsadowe można używać dla obciążeń, które nie wymagają natychmiastowego dostępu do szczegółowych informacji. Przetwarzanie wsadowe może uzupełniać wymagania dotyczące przetwarzania w czasie rzeczywistym. Możesz również użyć przetwarzania wsadowego, aby zrównoważyć złożoność i zmniejszyć koszty ogólnej implementacji.

Podstawowym wymaganiem aparatów przetwarzania wsadowego jest skalowanie obliczeń w poziomie w celu obsługi dużej ilości danych. W przeciwieństwie do przetwarzania w czasie rzeczywistym przetwarzanie wsadowe ma opóźnienia lub czas między pozyskiwaniem i przetwarzaniem danych w ciągu kilku minut lub godzin.

Wybieranie technologii przetwarzania wsadowego

Firma Microsoft oferuje kilka usług, których można użyć do przetwarzania wsadowego.

Microsoft Fabric

Microsoft Fabric to platforma do analizy i danych typu all-in-one dla organizacji. Jest to oferta oprogramowania jako usługi, która upraszcza aprowizację kompleksowego rozwiązania analitycznego, zarządzanie nim i zarządzanie nim. Sieć szkieletowa obsługuje przenoszenie, przetwarzanie, pozyskiwanie, przekształcanie i raportowanie danych. Funkcje sieci szkieletowej używane do przetwarzania wsadowego obejmują inżynierię danych, magazyny danych, magazyny danych, magazyny lakehouse i przetwarzanie platformy Apache Spark. Usługa Azure Data Factory w usłudze Fabric obsługuje również magazyny lakehouse. Aby uprościć i przyspieszyć opracowywanie, możesz włączyć oparty na sztucznej inteligencji copilot.

  • Języki: R, Python, Java, Scala i SQL

  • Zabezpieczenia: Zarządzana sieć wirtualna i kontrola dostępu oparta na rolach w usłudze OneLake (RBAC)

  • Magazyn podstawowy: OneLake, który ma skróty i opcje dublowania

  • Spark: wstępnie wypełnianie puli początkowej i niestandardowej puli Spark ze wstępnie zdefiniowanymi rozmiarami węzłów

Azure Synapse Analytics

Azure Synapse Analytics to usługa analizy przedsiębiorstwa, która łączy technologie SQL i Spark w ramach jednej konstrukcji obszaru roboczego. Usługa Azure Synapse Analytics upraszcza zabezpieczenia, nadzór i zarządzanie. Każdy obszar roboczy ma zintegrowane potoki danych, których można użyć do tworzenia pełnych przepływów pracy. Możesz również aprowizować dedykowaną pulę SQL na potrzeby analizy na dużą skalę, bezserwerowego punktu końcowego SQL, którego można użyć do bezpośredniego wykonywania zapytań względem magazynu typu lake oraz środowiska uruchomieniowego Platformy Spark na potrzeby rozproszonego przetwarzania danych.

  • Języki: Python, Java, Scala i SQL

  • Zabezpieczenia: Zarządzana sieć wirtualna, kontrola dostępu oparta na rolach i kontrola dostępu oraz listy kontroli dostępu do magazynu w usłudze Azure Data Lake Storage

  • Magazyn podstawowy: usługa Data Lake Storage, a także integruje się z innymi źródłami

  • Spark: niestandardowa konfiguracja platformy Spark z wstępnie zdefiniowanymi rozmiarami węzłów

Azure Databricks

Azure Databricks to platforma analizy oparta na platformie Spark. Oferuje ona zaawansowane i premium funkcje platformy Spark, które są oparte na platformie Spark typu open source. Azure Databricks to usługa firmy Microsoft, która integruje się z resztą usług platformy Azure. Oferuje ona dodatkowe konfiguracje wdrożeń klastra Spark. Katalog aparatu Unity ułatwia uproszczenie ładu obiektów platformy Spark usługi Azure Databricks.

  • Języki: R, Python, Java, Scala i Spark SQL.

  • Zabezpieczenia: uwierzytelnianie użytkownika za pomocą identyfikatora Entra firmy Microsoft.

  • Magazyn podstawowy: wbudowana integracja z usługą Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics i innymi usługami. Aby uzyskać więcej informacji, zobacz Źródła danych.

Inne korzyści obejmują:

  • Notesy internetowe do współpracy i eksploracji danych.

  • Szybkie czasy uruchamiania klastra, automatyczne kończenie i skalowanie automatyczne.

  • Obsługa klastrów z obsługą procesora GPU.

Kluczowe kryteria wyboru

Aby wybrać technologię przetwarzania wsadowego, rozważ następujące pytania:

  • Czy chcesz zarządzać usługą zarządzaną, czy chcesz zarządzać własnymi serwerami?

  • Czy chcesz utworzyć logikę przetwarzania wsadowego deklaratywnie lub imperatywnie?

  • Czy wykonujesz przetwarzanie wsadowe w seriach? Jeśli tak, rozważ opcje, które umożliwiają automatyczne zakończenie klastra lub modele cenowe dla każdego zadania wsadowego.

  • Czy należy wykonywać zapytania dotyczące relacyjnych magazynów danych wraz z przetwarzaniem wsadowym, na przykład w celu wyszukania danych referencyjnych? Jeśli tak, rozważ opcje, które zapewniają możliwość wykonywania zapytań względem zewnętrznych magazynów relacyjnych.

Macierz możliwości

W poniższych tabelach podsumowano kluczowe różnice w możliwościach między usługami.

Ogólne możliwości

Możliwość Sieć szkieletowa Azure Synapse Analytics Azure Databricks
Oprogramowanie jako usługa Tak1 Nie. Nie.
Usługa zarządzana Nie. Tak Tak
Relacyjny magazyn danych Tak Tak Tak
Model cen Jednostki pojemności Pula SQL lub godzina klastra Jednostka 2 i godzina klastra usługi Azure Databricks

[1] Przypisana pojemność sieci szkieletowej.

[2] Jednostka usługi Azure Databricks to możliwość przetwarzania na godzinę.

Inne możliwości

Możliwość Sieć szkieletowa Azure Synapse Analytics Azure Databricks
Skalowanie automatyczne Nie Nie. Tak
Stopień szczegółowości skalowania w poziomie Jednostka SKU na sieć szkieletową Na klaster lub pulę SQL Na klaster
Buforowanie danych w pamięci Nie. Tak Tak
Wykonywanie zapytań z relacyjnych magazynów zewnętrznych Tak Nie Tak
Uwierzytelnianie Microsoft Entra ID SQL lub Microsoft Entra ID Microsoft Entra ID
Inspekcja Tak Tak Tak
Zabezpieczenia na poziomie wiersza Tak Tak 1 Tak
Obsługuje zapory Tak Tak Tak
Dynamiczne maskowanie danych Tak Tak Tak

[1] Tylko predykaty filtru. Aby uzyskać więcej informacji, zobacz Zabezpieczenia na poziomie wiersza.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Autorzy zabezpieczeń:

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następne kroki