Vad är "mänskliga data" och varför är det viktigt att källan på ett ansvarsfullt sätt?

GÄLLER FÖR:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (aktuell)

Mänskliga data är data som samlas in direkt från eller om personer. Mänskliga data kan omfatta personuppgifter som namn, ålder, bilder eller röstklipp och känsliga data som genetiska data, biometriska data, könsidentitet, religiös övertygelse eller politisk anknytning.

Det kan vara viktigt att samla in dessa data för att skapa AI-system som fungerar för alla användare. Men vissa metoder bör undvikas, särskilt de som kan orsaka fysisk och psykisk skada för datadeltagare.

De bästa metoderna i den här artikeln hjälper dig att genomföra manuella datainsamlingsprojekt från volontärer där alla inblandade behandlas med respekt och potentiella skador – särskilt de som drabbas av utsatta grupper – förväntas och minimeras. Detta innebär att:

  • Personer som bidrar med data tvingas eller utnyttjas inte på något sätt, och de har kontroll över vilka personuppgifter som samlas in.
  • Personer som samlar in och etiketterar data har tillräcklig utbildning.

Dessa metoder kan också bidra till att säkerställa mer balanserade och högkvalitativa datamängder och bättre hantering av mänskliga data.

Det här är nya metoder och vi lär oss kontinuerligt. Metodtipsen i nästa avsnitt är en startpunkt när du påbörjar dina egna ansvarsfulla mänskliga datasamlingar. Dessa bästa metoder tillhandahålls endast i informationssyfte och bör inte behandlas som juridisk rådgivning. Alla samlingar av mänskliga data bör genomgå särskilda sekretess- och juridiska granskningar.

Allmänna metodtips

Vi föreslår följande metodtips för att manuellt samla in mänskliga data direkt från människor.

Metodtips

Varför?


Få frivilligt informerat medgivande.

  • Deltagarna bör förstå och samtycka till datainsamling och hur deras data ska användas.
  • Data bör endast lagras, bearbetas och användas för ändamål som ingår i det ursprungliga dokumenterade informerade medgivandet.
  • Dokumentation om medgivande bör lagras korrekt och associeras med insamlade data.

Kompensera datadeltagare på rätt sätt.

  • Datadeltagare bör inte pressas eller tvingas till datasamlingar och bör kompenseras rättvist för sin tid och sina data.
  • Olämplig kompensation kan vara exploaterande eller tvingande.

Låt deltagare själv identifiera demografisk information.

  • Demografisk information som inte självrapporteras av datadeltagare men som tilldelas av datainsamlare kan 1) resultera i felaktiga metadata och 2) vara respektlös mot datadeltagare.

Förutse skador när du rekryterar utsatta grupper.

  • Insamling av data från sårbara befolkningsgrupper medför risker för datadeltagare och din organisation.

Behandla datadeltagare med respekt.

  • Felaktiga interaktioner med datadeltagare i alla faser av datainsamlingen kan påverka datakvaliteten negativt, samt den övergripande datainsamlingsupplevelsen för datadeltagare och datainsamlare.

Kvalificera externa leverantörer noggrant.

  • Datasamlingar med okvalificerade leverantörer kan resultera i data av låg kvalitet, dålig datahantering, oprofessionella metoder och potentiellt skadliga resultat för datadeltagare och datainsamlare (inklusive brott mot de mänskliga rättigheterna).
  • Antecknings- eller märkningsarbete (t.ex. ljudranskription, bildtaggning) med okvalificerade leverantörer kan leda till låg kvalitet eller partiska datamängder, osäker datahantering, oprofessionella metoder och potentiellt skadliga resultat för datadeltagare (inklusive brott mot mänskliga rättigheter).

Förmedla förväntningarna tydligt i arbetsförklaringen (SOW) (kontrakt eller avtal) med leverantörer.

  • Ett kontrakt som saknar krav för ansvarsfullt datainsamlingsarbete kan resultera i låg kvalitet eller dåligt insamlade data.

Kvalificera geografiska områden noggrant.

  • När så är tillämpligt kan insamling av data i områden med hög geopolitisk risk och/eller obekanta geografiska områden leda till oanvändbara data eller data av låg kvalitet och kan påverka de berörda parternas säkerhet.

Var en bra förvaltare av dina datauppsättningar.

  • Felaktig datahantering och dålig dokumentation kan leda till missbruk av data.

Kommentar

Den här artikeln fokuserar på rekommendationer för mänskliga data, inklusive personuppgifter och känsliga data som biometriska data, hälsodata, rasdata eller etniska data, data som samlas in manuellt från allmänheten eller företagets anställda, samt metadata som rör mänskliga egenskaper, till exempel ålder, anor och könsidentitet, som kan skapas via anteckningar eller etikettering.

Ladda ned de fullständiga rekommendationerna här

Metodtips för att samla in ålder, anor och könsidentitet

För att AI-system ska fungera bra för alla bör de datamängder som används för träning och utvärdering återspegla mångfalden hos personer som kommer att använda eller påverkas av dessa system. I många fall kan ålder, anor och könsidentitet hjälpa till att approximera de olika faktorer som kan påverka hur väl en produkt presterar för olika personer; Att samla in den här informationen kräver dock särskild hänsyn.

Om du samlar in dessa data bör du alltid låta datadeltagare identifiera sig själv (välja sina egna svar) i stället för att låta datainsamlare göra antaganden, vilket kan vara felaktigt. Inkludera även alternativet "föredrar att inte svara" för varje fråga. Dessa metoder visar respekt för datadeltagare och ger mer balanserade och högkvalitativa data.

Dessa bästa metoder har utvecklats baserat på tre års forskning med avsedda intressenter och samarbete med många team på Microsoft: rättvise- och inkluderingsarbetsgrupper, global mångfald och inkludering, global beredskap, Office of Responsible AI och andra.

Om du vill göra det möjligt för personer att identifiera sig själv bör du överväga att använda följande undersökningsfrågor.

Ålder

Hur gammal är du?

Välj ditt åldersintervall

[Inkludera lämpliga åldersintervall som definieras av projektsyfte, geografisk region och vägledning från domänexperter]

  • # till #
  • # till #
  • # till #
  • Föredrar att inte svara

Börd

Välj de kategorier som bäst beskriver dina anor

Kan välja flera

[Inkludera lämpliga kategorier som definieras av projektsyfte, geografisk region och vägledning från domänexperter]

  • Ancestry-grupp
  • Ancestry-grupp
  • Ancestry-grupp
  • Flera (multiraciala, blandade Ancestry)
  • Inte listad, jag beskriver mig själv som: _________________
  • Föredrar att inte svara

Könsidentitet

Hur identifierar du?

Kan välja flera

[Inkludera lämpliga könsidentiteter som definieras av projektsyfte, geografisk region och vägledning från domänexperter]

  • Könsidentitet
  • Könsidentitet
  • Könsidentitet
  • Föredrar att själv beskriva: _________________
  • Föredrar att inte svara

Varning

I vissa delar av världen finns det lagar som kriminaliserar specifika könskategorier, så det kan vara farligt för datadeltagare att besvara den här frågan ärligt. Ge alltid folk ett sätt att välja bort. Och arbeta med regionala experter och advokater för att genomföra en noggrann översyn av lagar och kulturella normer för varje plats där du planerar att samla in data, och vid behov undvika att ställa denna fråga helt.

Ladda ned den fullständiga vägledningen här.

Nästa steg

Mer information om hur du arbetar med dina data:

Följ dessa instruktionsguider för att arbeta med dina data när du har samlat in dem: