Co to jest produkt danych?

Każda aplikacja tworzy i przechowuje dane tymczasowo lub trwale. Wiele aplikacji tworzy również i zapisuje dane na potrzeby zarządzania operacyjnego, takie jak rejestrowanie błędów i monitorowanie kondycji. Aby korzystać z tych aplikacji i przetwarzać je, scentralizowane zespoły danych używają procesów wyodrębniania, przekształcania i ładowania (ETL). Zespoły operacji aplikacji często mają inne przepływy przetwarzania danych dla danych, takich jak dane kondycji aplikacji i dane monitorowania stanu kluczowego wskaźnika wydajności.

W przypadku integracji danych tradycyjne podejście kaskadowe, w którym zespoły stosują określoną kolejność faz, nie jest idealnym rozwiązaniem. Może to prowadzić do luk w wiedzy, problemów z własnością i konfliktów komunikacyjnych, które wpływają na jakość, terminy i wartość danych dla użytkowników. Zespoły aplikacji są odpowiedzialne za wydajność i sukces aplikacji. Gdy używają podejścia kaskadowego, wprowadzają zmiany w procesach podrzędnych, które są właścicielami innych zespołów. Czasami te zmiany mogą mieć wpływ na inne obszary. Na przykład niewielka zmiana nadrzędna może znacząco zmienić trend kluczowego wskaźnika wydajności. Te konflikty mogą mieć wpływ na zdolność do podejmowania krytycznych decyzji.

Dane jako produkt

Aby zapobiec tym problemom, podejście siatki danych przyjmuje koncepcję danych jako produktu. Właściciele aplikacji i zespoły ds. aplikacji traktują dane jako w pełni zawarty produkt, za który są odpowiedzialni, a nie za produkt uboczny procesu innego zespołu. Zarówno aplikacje, jak i zadania obsługujące dane analityczne znajdują się w obszarach odpowiedzialności domeny.

Produkty danych są tworzone specjalnie do użycia analitycznego. Zdefiniowali i uzgodnili kształty, interfejsy zużycia oraz cykle konserwacji i odświeżania, z których wszystkie zostały udokumentowane.

Produkty danych są przetwarzane zasoby danych domeny lub zestawy danych, które można udostępniać procesom podrzędnym za pośrednictwem interfejsów w celu poziomu usługi. O ile nie jest to wymagane, należy przetwarzać, kształtować, czyścić, agregować i normalizować nieprzetworzone dane w celu spełnienia uzgodnionych standardów jakości przed udostępnieniem ich do użytku.

W poniższych sekcjach opisano typowe cechy dobrych produktów danych.

Charakterystyka produktu danych

Upewnij się, że produkty danych są następujące:

  • Możliwe do odnalezienia, zrozumiałe i godne zaufania. Aby zapewnić czytelność i przejrzystość, udostępnij i zaktualizuj informacje o każdym produkcie danych, jego danych, jego znaczeniu, formacie kształtu danych i cyklu odświeżania. Przekazywanie zmian danych lub zmian kształtu użytkownikom podrzędnym w odpowiednim czasie. Aby zapewnić wiarygodność, interfejsy zapewniają zgodność z poprzednimi wersjami w czasie dla kształtów produktów danych.

  • Adresowalne, natywnie dostępne i bezpieczne. Aby zapewnić możliwość adresowania, utwórz zdefiniowane procesy w celu zlokalizowania i uzyskania dostępu do każdego produktu danych. Zaimplementuj środki zabezpieczeń pod kątem różnych wymagań dostępu. Przenieś mentalność własności domeny danych z danych służących do obsługi danych przy użyciu dobrze zdefiniowanych środków ostrożności dotyczących zabezpieczeń. Dobrze udokumentowane interfejsy dostępu mogą się różnić w różnych technologiach. Najczęściej używane interfejsy dla produktów danych z natywnie dostępnymi danymi obejmują interfejsy API, użytkowników bazy danych, tabele lub widoki oraz pliki z wymaganymi prawami dostępu.

  • Współdziałanie, prawdziwość i wartość. Aby zapewnić współdziałanie, upewnij się, że dane są zgodne ze zdefiniowanymi typowymi standardami, takimi jak wartości o tej samej nazwie i typie danych. Możesz na przykład nazwać kolumnę zawierającą dane identyfikacji klienta CustomerID w każdym produkcie danych, a jego dane mogą być zawsze liczbą całkowitą. Produkty danych zapewniają klientom wartość i można ich używać jako nadrzędnych źródeł dla nowych produktów danych w tej samej domenie lub różnych domenach. Nie można jednak po prostu przenosić i kopiować tego samego produktu danych w wielu miejscach. Każdy produkt danych pochodzący z poprzedniego produktu danych powinien dostarczać nowe wartości i informacje konsumentom podrzędnym. Produkty danych muszą również dostarczać prawdziwe, dokładne dane.

Używaj dobrze zaprojektowanych, dobrze utrzymywanych produktów danych i ich interfejsów, aby uniknąć duplikowania danych i utworzyć natywne pojedyncze źródło prawdy.

Zalecenia dotyczące projektowania produktów danych

Aby spełnić wymagania dotyczące obsługi danych, zespoły domen muszą uzyskać nowy zestaw umiejętności i korzystać z nowych narzędzi i platform.

Aby tworzyć aplikacje danych i tworzyć lub obsługiwać produkty danych, w pełni wyposażyć zespoły aplikacji domeny. Twoje zespoły mogą używać znanego stosu technologii do tworzenia produktów danych. Mogą również preferować własne wystąpienie platformy Spark lub aparat potoku. Na przykład duża domena, która obsługuje wiele produktów danych, może przetwarzać i obsługiwać produkty danych z własnego wystąpienia usługi Azure Synapse Analytics. Mniejsze organizacje i mniejsze domeny dużych organizacji mogą opracowywać i uruchamiać aplikacje danych na udostępnionej platformie, takiej jak centralnie zlokalizowana usługa Azure Data Factory, usługa Azure Synapse Analytics lub wystąpienie usługi Azure Databricks.

Upewnij się, że produkty danych mają typowe cechy opisane w tym artykule, że repozytorium pochodzenia odzwierciedla pochodzenie aplikacji danych oraz że zarządzasz implementacją i dostępem.

Na poniższym diagramie przedstawiono przykładowy układ logiczny aplikacji danych w domenie i strefie docelowej.

Diagram przedstawiający możliwy układ logiczny aplikacji danych w domenie i strefie docelowej.

Wskazówki dotyczące produktu i aplikacji danych dla platformy Azure

Podejścia do środowiska aplikacji danych można umieścić w strefach docelowych danych platformy Azure, jeśli zespoły aplikacji domeny używają udostępnionej platformy i udostępnionego zestawu usług.

Diagram przedstawiający grupę zasobów data-application-rg z kontekstu aplikacji danych i grupy zasobów shared-application-rg z kontekstu usług podstawowych.

Aby uzyskać szablony wzorców aplikacji danych dla stref docelowych danych platformy Azure, zobacz Przykładowe aplikacje danych.

Następny krok