Co to są "dane ludzkie" i dlaczego ważne jest odpowiedzialne źródło?

DOTYCZY: Rozszerzenie interfejsu wiersza polecenia platformy Azure w wersji 2 (current)Zestaw PYTHON SDK azure-ai-ml v2 (bieżąca)

Dane ludzkie to dane zbierane bezpośrednio z osób lub osób. Dane osobowe mogą obejmować dane osobowe, takie jak nazwiska, wiek, obrazy lub klipy głosowe oraz poufne dane, takie jak dane genetyczne, dane biometryczne, tożsamość płciowa, przekonania religijne lub przynależność polityczna.

Zbieranie tych danych może być ważne w przypadku tworzenia systemów sztucznej inteligencji, które działają dla wszystkich użytkowników. Należy jednak unikać pewnych praktyk, zwłaszcza tych, które mogą spowodować szkodę fizyczną i psychologiczną dla współautorów danych.

Najlepsze rozwiązania opisane w tym artykule pomogą Ci prowadzić ręczne projekty zbierania danych od wolontariuszy, w których wszyscy zaangażowani są traktowani z szacunkiem i potencjalne szkody — zwłaszcza te, które napotykają wrażliwe grupy — są przewidywane i ograniczane. To oznacza, że:

  • Osoby, które współtworzą dane, nie są w żaden sposób zmuszane ani wykorzystywane i mają kontrolę nad tym, jakie dane osobowe są zbierane.
  • Osoby zbierające i etykietowanie danych mają odpowiednie szkolenia.

Te rozwiązania mogą również pomóc w zapewnieniu bardziej zrównoważonych i wyższej jakości zestawów danych oraz lepszego zarządzania danymi ludzkimi.

Są to nowe praktyki i nieustannie się uczymy. Najlepsze rozwiązania w następnej sekcji są punktem wyjścia podczas rozpoczynania własnych odpowiedzialnych zbierania danych przez ludzi. Te najlepsze rozwiązania są udostępniane wyłącznie w celach informacyjnych i nie powinny być traktowane jako porady prawne. Wszystkie ludzkie zbiory danych powinny być poddawane określonym przeglądom prywatności i prawnym.

Ogólne sprawdzone metody postępowania

Zalecamy następujące najlepsze rozwiązania dotyczące ręcznego zbierania danych ludzkich bezpośrednio od osób.

Najlepsze rozwiązanie

Dlaczego?


Uzyskaj dobrowolną świadomą zgodę.

  • Uczestnicy powinni zrozumieć i wyrazić zgodę na zbieranie danych oraz sposób ich użycia.
  • Dane powinny być przechowywane, przetwarzane i używane tylko do celów, które są częścią oryginalnej udokumentowanej zgody świadomej.
  • Dokumentacja zgody powinna być prawidłowo przechowywana i skojarzona z zebranymi danymi.

Odpowiednio skompensuj współautorów danych.

  • Współautorzy danych nie powinni być naciskani ani zmuszani do zbierania danych i powinni być odpowiednio zrekompensowani za ich czas i dane.
  • Niewłaściwe odszkodowanie może być wykorzystywane lub przymusowe.

Pozwól współautorom na samodzielne identyfikowanie informacji demograficznych.

  • Informacje demograficzne, które nie są zgłaszane samodzielnie przez współautorów danych, ale przypisane przez moduły zbierające dane mogą 1) spowodować niedokładne metadane i 2) brak szacunku dla współautorów danych.

Przewidywanie szkód podczas rekrutacji wrażliwych grup.

  • Zbieranie danych z wrażliwych grup ludności stanowi zagrożenie dla współautorów danych i organizacji.

Traktuj współautorów danych z szacunkiem.

  • Niewłaściwe interakcje z współautorami danych w dowolnej fazie zbierania danych mogą mieć negatywny wpływ na jakość danych, a także ogólne środowisko zbierania danych dla współautorów danych i modułów zbierających dane.

Starannie kwalifikują się zewnętrzni dostawcy.

  • Zbieranie danych z niekwalifikowanymi dostawcami może spowodować niską jakość danych, słabe zarządzanie danymi, praktyki nieprofesjonalne i potencjalnie szkodliwe wyniki dla współautorów danych i modułów zbierających dane (w tym naruszenia praw człowieka).
  • Praca adnotacji lub etykietowania (np. transkrypcja audio, tagowanie obrazów) z niekwalifikowanymi dostawcami może spowodować niską jakość lub stronnicze zestawy danych, niezabezpieczone zarządzanie danymi, praktyki nieprofesjonalne i potencjalnie szkodliwe wyniki dla współautorów danych (w tym naruszenia praw człowieka).

Jasno poinformuj o oczekiwaniach w oświadczeniu o pracy (SOW) (umowach lub umowach) z dostawcami.

  • Umowa, która nie ma wymagań dotyczących odpowiedzialnego zbierania danych, może spowodować niską jakość lub źle zebrane dane.

Starannie kwalifikują się lokalizacje geograficzne.

  • W stosownych przypadkach zbieranie danych w obszarach wysokiego ryzyka geopolitycznego i/lub nieznanych lokalizacji geograficznych może spowodować bezużyteczne lub niskiej jakości dane i może mieć wpływ na bezpieczeństwo zaangażowanych stron.

Bądź dobrym stewardem zestawów danych.

  • Niewłaściwe zarządzanie danymi i słaba dokumentacja mogą spowodować nieprawidłowe użycie danych.

Uwaga

Ten artykuł koncentruje się na zaleceniach dotyczących danych osobowych, w tym danych osobowych i poufnych, takich jak dane biometryczne, dane zdrowotne, dane rasowe lub etniczne, zebrane ręcznie od pracowników publicznych lub firmowych, a także metadane dotyczące cech ludzkich, takich jak wiek, pochodzenie i tożsamość płci, które mogą być tworzone za pośrednictwem adnotacji lub etykietowania.

Pobierz pełne zalecenia tutaj

Najlepsze rozwiązania dotyczące zbierania tożsamości ze względu na wiek, pochodzenie i tożsamość płciową

Aby systemy sztucznej inteligencji działały dobrze dla wszystkich, zestawy danych używane do trenowania i oceny powinny odzwierciedlać różnorodność osób, które będą korzystać z tych systemów lub których to dotyczy. W wielu przypadkach wiek, pochodzenie i tożsamość płciowa mogą pomóc w przybliżeniu zakresu czynników, które mogą mieć wpływ na to, jak dobrze działa produkt dla różnych osób; jednak zbieranie tych informacji wymaga szczególnej uwagi.

Jeśli zbierasz te dane, zawsze pozwól współautorom danych na samodzielne zidentyfikowanie (wybierz własne odpowiedzi) zamiast wprowadzania założeń przez moduły zbierające dane, co może być niepoprawne. Uwzględnij również opcję "nie chcesz odpowiadać" dla każdego pytania. Te rozwiązania będą przedstawiać szacunek dla współautorów danych i przynieść bardziej zrównoważone i wyższej jakości dane.

Te najlepsze rozwiązania zostały opracowane na podstawie trzech lat badań z zamierzonymi osobami biorącymi udział w projekcie i współpracy z wieloma zespołami w firmie Microsoft: sprawiedliwości i inkluzywności grup roboczych, globalnej różnorodności i integracji, globalnej gotowości, biura odpowiedzialnej sztucznej inteligencji i innych.

Aby umożliwić innym osobom samodzielne identyfikowanie, rozważ użycie następujących pytań z ankiety.

Wiek

Ile masz lat?

Wybierz zakres wiekowy

[Uwzględnij odpowiednie zakresy wiekowe zdefiniowane przez cel projektu, region geograficzny i wskazówki od ekspertów z dziedziny]

  • # do #
  • # do #
  • # do #
  • Preferuj nie odpowiadać

Pochodzenie

Wybierz kategorie, które najlepiej opisują pochodzenie

Może wybrać wiele

[Uwzględnij odpowiednie kategorie zdefiniowane przez cel projektu, region geograficzny i wskazówki od ekspertów z dziedziny]

  • Grupa przodków
  • Grupa przodków
  • Grupa przodków
  • Wiele (wielorasowych, mieszanych przodków)
  • Nie wymieniono, opiszę się jako: _________________
  • Preferuj nie odpowiadać

Tożsamość płci

Jak zidentyfikować?

Może wybrać wiele

[Uwzględnij odpowiednie tożsamości płci zdefiniowane przez cel projektu, region geograficzny i wskazówki od ekspertów z dziedziny]

  • Tożsamość płci
  • Tożsamość płci
  • Tożsamość płci
  • Preferuj samodzielne opisywanie: _________________
  • Preferuj nie odpowiadać

Uwaga

W niektórych częściach świata istnieją przepisy, które karzą określone kategorie płci, więc może to być niebezpieczne dla współautorów danych, aby szczerze odpowiedzieć na to pytanie. Zawsze daj ludziom sposób na rezygnację. I współpracować z regionalnymi ekspertami i adwokatami, aby przeprowadzić staranne przegląd przepisów i norm kulturowych każdego miejsca, w którym planujesz zbierać dane, a jeśli to konieczne, unikaj całkowitego zadawania tego pytania.

Pobierz pełne wskazówki tutaj.

Następne kroki

Aby uzyskać więcej informacji na temat pracy z danymi:

Postępuj zgodnie z poniższymi przewodnikami z instrukcjami, aby pracować z danymi po ich zebraniu: