Zgodność z RODO i KPI z usługą Delta Lake

W tym artykule opisano sposób używania usługi Delta Lake w usłudze Azure Databricks do zarządzania ogólnym rozporządzeniem o ochronie danych (RODO) i zgodnością california Consumer Privacy Act (KPA) dla usługi Data Lake. Zgodność często wymaga usunięcia punktów lub usunięcia poszczególnych rekordów w ramach dużej kolekcji danych. Usługa Delta Lake przyspiesza usuwanie punktów w dużych magazynach danych za pomocą transakcji ACID, co umożliwia lokalizowanie i usuwanie danych osobowych w odpowiedzi na żądania RODO lub KPA konsumentów.

Planowanie modelu danych pod kątem zgodności

Modelowanie danych pod kątem zgodności jest ważnym krokiem w zakresie czynienia z danymi pii. Istnieje wiele realnych podejść w zależności od potrzeb użytkowników danych.

Jedną z często stosowanych metod jest pseudonimizacja lub odwracalna tokenizacja elementów informacji osobistych (identyfikatorów) do kluczy (pseudonimów), których nie można zidentyfikować zewnętrznie. Zgodność przy użyciu pseudonimizacji wymaga starannego planowania, w tym następujących elementów:

  • Przechowywanie informacji w sposób powiązany z pseudonimami, a nie z identyfikatorami.
  • Konserwacja rygorystycznych zasad dostępu i użycia danych łączących identyfikatory i pseudonimy.
  • Potoki lub zasady magazynu w celu usunięcia danych pierwotnych.
  • Logika lokalizowania i usuwania połączenia między pseudonimami i identyfikatorami.

Jak usługa Delta Lake upraszcza usuwanie punktów

Usługa Delta Lake ma wiele wbudowanych optymalizacji pomijania danych. Aby przyspieszyć usuwanie punktów, usługa Databricks zaleca użycie kolejności Z w polach używanych podczas DELETE operacji.

Usługa Delta Lake zachowuje historię tabel i udostępnia je dla zapytań i wycofywania do punktu w czasie. Funkcja VACUUM usuwa pliki danych, do których nie odwołują się już tabele delty i są starsze niż określony próg przechowywania, trwale usuwając dane. Aby dowiedzieć się więcej na temat ustawień domyślnych i zaleceń, zobacz Praca z historią tabel usługi Delta Lake.

Uwaga

W przypadku tabel z włączonymi wektorami usuwania należy również uruchomić polecenie REORG TABLE ... APPLY (PURGE) , aby trwale usunąć rekordy bazowe. Zobacz Stosowanie zmian do plików danych Parquet.