Was ist „Human Data" und warum ist es wichtig, verantwortungsbewusst zu importieren?

GILT FÜR:Azure CLI ML-Erweiterung v2 (aktuell)Python SDK azure-ai-ml v2 (aktuell)

Human Data werden direkt von oder über Personen gesammelt. Personenbezogene Daten können Namen, Alter, Bilder oder Sprachclips und vertrauliche Daten wie genetische Daten, biometrische Daten, Genderidentität, religiöse Überzeugungen oder politische Zugehörigkeiten enthalten.

Das Sammeln dieser Daten kann wichtig sein, um KI-Systeme zu erstellen, die für alle Benutzer funktionieren. Bestimmte Praktiken sollten jedoch vermieden werden, insbesondere solche, die physische und psychische Schäden an Datenspender verursachen können.

Die bewährten Methoden in diesem Artikel helfen Ihnen bei der Durchführung manueller Datensammlungsprojekte bei Freiwilligen, bei denen alle beteiligten Personen mit Respekt behandelt werden, und potenzielle Schäden – insbesondere diejenigen, denen gefährdete Gruppen ausgesetzt sind – werden erwartet und abgemildert. Dies bedeutet Folgendes:

  • Personen, die Daten beitragen, werden nicht in irgendeiner Weise genötigt oder ausgenutzt, und sie haben Kontrolle darüber, welche personenbezogenen Daten gesammelt werden.
  • Personen, die Daten sammeln und kennzeichnen, verfügen über ausreichenden Training.

Diese Praktiken können auch helfen, ausgewogenere und hochwertigere Datasets und eine bessere Verwaltung von Human Data zu gewährleisten.

Dies sind neue Praktiken, und wir lernen ständig dazu. Die folgenden bewährten Methoden sind ein Ausgangspunkt, wenn Sie mit Ihrer eigenen verantwortungsvollen Human-Data-Sammlungen beginnen. Diese bewährten Methoden sind nur für Informationszwecke vorgesehen und sollten nicht als Rechtsberatung angesehen werden. Alle Human Data-Sammlungen sollten spezifische Datenschutz- und rechtliche Überprüfungen durchlaufen.

Allgemeine bewährte Methoden

Wir empfehlen die folgenden bewährten Methoden zum manuellen Sammeln von Human Data direkt von Personen.

Bewährte Methode

Warum?


Erhalten Sie freiwillige informierte Zustimmung.

  • Teilnehmer sollten die Datensammlung verstehen und zustimmen, auch wie ihre Daten verwendet werden.
  • Daten sollten nur für Zwecke gespeichert, verarbeitet und verwendet werden, die Teil der ursprünglich dokumentierten informierten Zustimmung sind.
  • Die Zustimmungsdokumentation sollte ordnungsgemäß gespeichert und den gesammelten Daten zugeordnet werden.

Entschädigen Sie die Datenspender entsprechend.

  • Datenspender sollten nicht zu Datensammlungen gedrängt oder in Datensammlungen gezwängt werden und für ihre Zeit und Daten fair entschädigt werden.
  • Unangemessene Entschädigung kann ausbeuterisch oder ein erzwungen sein.

Lassen Sie Mitwirkende demografische Informationen selbst identifizieren.

  • Demografische Informationen, die nicht von Datenspendern selbst gemeldet werden, aber von Datensammlern zugewiesen werden, können 1) zu ungenauen Metadaten führen und 2) respektlos gegenüber Datenspendern sein.

Erwarten Sie Schäden beim Anwerben ungeschützten Gruppen.

  • Das Sammeln von Daten aus ungeschützten Bevölkerungsgruppen führt zu Risiken für Datenspender und Ihre Organisation.

Behandeln von Datenspendern mit Respekt.

  • Fehlerhafte Interaktionen mit Datenspendern in jeder Phase der Datensammlung können sich negativ auf die Datenqualität sowie die gesamte Datensammlungserfahrung für Datenspender und Datensammler auswirken.

Qualifizieren Sie externe Lieferanten sorgfältig.

  • Datensammlungen mit nicht qualifizierten Lieferanten können zu einer geringen Qualität von Daten, schlechtem Datenmanagement, unprofessionellen Praktiken und potenziell schädlichen Ergebnissen für Datenspender und Datensammler führen (einschließlich Verletzungen der Menschenrechte).
  • Anmerkungs- oder Bezeichnungsarbeit (z. B. Audiotranskription, Bild-Tagging) mit nicht qualifizierten Lieferanten können zu qualitativ geringen oder voreingenommenen Datasets, unsicherer Datenverwaltung, unprofessionellen Praktiken und potenziell schädlichen Ergebnissen für Datenspender (einschließlich Verletzungen der Menschenrechte) führen.

Kommunizieren Sie die Erwartungen klar in der Erklärung der Arbeit (SOW) (Verträge oder Vereinbarungen) mit Lieferanten.

  • Ein Vertrag, dem eine Anforderungen an die verantwortungsvolle Datensammlung fehlt, kann zu einer geringen Qualität oder zu schlecht gesammelten Daten führen.

Qualifizieren Sie geografische Regionen sorgfältig.

  • Gegebenenfalls können das Sammeln von Daten in Bereichen hoher geopolitischer Risiken und/oder ungewohnten Geografien zu unbrauchbaren oder qualitativ minderwertigen Daten führen und sich auf die Sicherheit der beteiligten Parteien auswirken.

Seien Sie ein guter Verwalter Ihrer Datasets.

  • Falsche Datenverwaltung und schlechte Dokumentation können zu Datenmissbrauch führen.

Hinweis

Dieser Artikel konzentriert sich auf Empfehlungen für Human Data, einschließlich personenbezogener Daten und vertraulicher Daten wie biometrische Daten, Gesundheitsdaten, rassistische oder ethnische Daten, die manuell von den allgemeinen Öffentlichen oder Unternehmensmitarbeitern gesammelt werden, sowie Metadaten zu menschlichen Merkmalen wie Alter, Herkunft und Geschlechtsidentität, die über Anmerkungen oder Bezeichnungen erstellt werden können.

Laden Sie hier die vollständigen Empfehlungen herunter

Bewährte Methoden zum Sammeln von Alters-, Herkunfts- und Geschlechtsidentitäten

Damit KI-Systeme für jeden gut funktionieren können, sollten die Datensätze, die für Training und Auswertungen verwendet werden, die Vielfalt der Menschen widerspiegeln, die diese Systeme verwenden oder betreffen. In vielen Fällen kann das Alter, die Herkunft und die Genderidentität dazu beitragen, den Bereich der Faktoren annähern zu können, die sich auf die Leistung eines Produkts für eine Vielzahl von Personen auswirken könnten. Die Erfassung dieser Daten erfordert jedoch besondere Sorgfalt.

Wenn Sie diese Daten sammeln, lassen Sie Datenspender immer selbst identifizieren (wählen Sie ihre eigenen Antworten aus), anstatt Datensammler Annahmen generieren zu lassen, die möglicherweise falsch sind. Fügen Sie auch eine Option „lieber nicht beantworten" für jede Frage ein. Diese Praktiken zeigen Respekt für den Datenspender und liefern ausgewogenere und qualitativ hochwertige Daten.

Diese Best Practices wurden basierend auf drei Jahren Forschung mit ausgewählten Stakeholdern und Zusammenarbeit mit vielen Teams bei Microsoft entwickelt: Arbeitsgruppen zu Fairness und Inklusion, Global Diversity & Inclusion, Global Readiness, Office of Responsible AI und weitere.

Um Personen zu ermöglichen, sich selbst zu identifizieren, sollten Sie die folgenden Fragen in Umfragen verwenden.

Age

Wie alt sind Sie?

Wählen Sie Ihren Altersbereich aus

[Fügen Sie geeignete Altersbereiche gemäß Projektzweck, geografischer Region und Anleitungen von Domänenexperten hinzu]

  • # to #
  • # to #
  • # to #
  • Möchte nicht antworten

Herkunft

Bitte wählen Sie die Kategorien aus, die Ihre Herkunft am besten beschreiben

Mehrere Auswahlmöglichkeiten

[Fügen Sie geeignete Kategorien gemäß Projektzweck, geografischer Region und Anleitungen von Domänenexperten hinzu]

  • Abstammungsgruppe
  • Abstammungsgruppe
  • Abstammungsgruppe
  • Mehrfach (gemischte Herkunft, gemischte Abstammung)
  • Nicht aufgeführt, ich beschreibt mich als: ________________
  • Möchte nicht antworten

Geschlechtsidentität

Wie identifizieren Sie sich?

Mehrere Auswahlmöglichkeiten

[Fügen Sie geeignete Geschlechtsidentitäten gemäß Projektzweck, geografischer Region und Anleitungen von Domänenexperten hinzu]

  • Geschlechtsidentität
  • Geschlechtsidentität
  • Geschlechtsidentität
  • Ziehen Sie es vor, sich selbst beschreiben: ________________
  • Möchte nicht antworten

Achtung

In einigen Teilen der Welt gibt es Gesetze, die bestimmte Geschlechterkategorien kriminalisieren, sodass es für Datenspender gefährlich sein kann, diese Frage ehrlich zu beantworten. Geben Sie Den Benutzern immer eine Möglichkeit, sich abzumelden. Und arbeiten Sie mit regionalen Experten und Rechtsanwälten zusammen, um eine sorgfältige Überprüfung der Gesetze und kulturellen Normen jedes Ortes durchzuführen, an dem Sie Daten sammeln möchten, und vermeiden Sie bei Bedarf, diese Frage vollständig zu stellen.

Laden Sie hier die vollständigen Anleitungen herunter.

Nächste Schritte

Weitere Informationen zum Verwenden Ihrer Daten:

Folgen Sie diesen Anleitungen, um mit Ihren Daten zu arbeiten, nachdem Sie sie gesammelt haben: