O que são "dados humanos" e por que é importante obter fontes responsáveis?
APLICA-SE A:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (current)
Dados humanos são dados coletados diretamente de, ou sobre, pessoas. Os dados humanos podem incluir dados pessoais, como nomes, idade, imagens ou clips de voz, e dados sensíveis, como dados genéticos, dados biométricos, identidade de género, crenças religiosas ou afiliações políticas.
Coletar esses dados pode ser importante para construir sistemas de IA que funcionem para todos os usuários. Mas certas práticas devem ser evitadas, especialmente aquelas que podem causar danos físicos e psicológicos aos contribuidores de dados.
As melhores práticas neste artigo irão ajudá-lo a conduzir projetos manuais de coleta de dados de voluntários, onde todos os envolvidos são tratados com respeito, e os danos potenciais, especialmente aqueles enfrentados por grupos vulneráveis, são antecipados e mitigados. Isto significa que:
- As pessoas que contribuem com dados não são coagidas ou exploradas de forma alguma, e elas têm controle sobre quais dados pessoais são coletados.
- As pessoas que recolhem e rotulam dados têm formação adequada.
Essas práticas também podem ajudar a garantir conjuntos de dados mais equilibrados e de maior qualidade e uma melhor gestão dos dados humanos.
Estas são práticas emergentes e estamos continuamente a aprender. As práticas recomendadas na próxima seção são um ponto de partida quando você começa suas próprias coletas de dados humanos responsáveis. Estas boas práticas são fornecidas apenas para fins informativos e não devem ser tratadas como aconselhamento jurídico. Todas as recolhas de dados humanos devem ser sujeitas a revisões legais e de privacidade específicas.
Melhores práticas gerais
Sugerimos as seguintes práticas recomendadas para coletar manualmente dados humanos diretamente das pessoas.
Best Practice (Melhores Práticas)
Porquê?
Obter consentimento informado voluntário.
- Os participantes devem compreender e consentir na recolha de dados e na forma como os seus dados serão utilizados.
- Os dados só devem ser armazenados, tratados e utilizados para fins que façam parte do consentimento informado documentado original.
- A documentação de consentimento deve ser devidamente armazenada e associada aos dados recolhidos.
Compensar adequadamente os contribuidores de dados.
- Os contribuidores de dados não devem ser pressionados ou coagidos a participar na recolha de dados e devem ser compensados de forma justa pelo seu tempo e dados.
- A compensação inadequada pode ser abusiva ou coerciva.
Permita que os colaboradores autoidentifiquem informações demográficas.
- As informações demográficas que não são autodeclaradas pelos contribuidores de dados, mas atribuídas pelos coletores de dados, podem 1) resultar em metadados imprecisos e 2) ser desrespeitosas com os contribuidores de dados.
Antecipar danos ao recrutar grupos vulneráveis.
- A coleta de dados de grupos populacionais vulneráveis introduz risco para os contribuidores de dados e sua organização.
Trate os contribuidores de dados com respeito.
- Interações inadequadas com contribuidores de dados em qualquer fase da coleta de dados podem afetar negativamente a qualidade dos dados, bem como a experiência geral de coleta de dados para contribuidores e coletores de dados.
Qualifique cuidadosamente os fornecedores externos.
- As recolhas de dados com fornecedores não qualificados podem resultar em dados de baixa qualidade, má gestão de dados, práticas pouco profissionais e resultados potencialmente prejudiciais para os contribuidores e coletores de dados (incluindo violações dos direitos humanos).
- O trabalho de anotação ou rotulagem (por exemplo, transcrição de áudio, marcação de imagens) com fornecedores não qualificados pode resultar em conjuntos de dados tendenciosos ou de baixa qualidade, gerenciamento de dados inseguro, práticas não profissionais e resultados potencialmente prejudiciais para os contribuidores de dados (incluindo violações dos direitos humanos).
Comunicar as expectativas de forma clara na Declaração de Trabalho (SOW) (contratos ou acordos) com fornecedores.
- Um contrato que não preveja requisitos para um trabalho responsável de recolha de dados pode resultar em dados de baixa qualidade ou mal recolhidos.
Qualifique as geografias cuidadosamente.
- Quando aplicável, a recolha de dados em áreas de elevado risco geopolítico e/ou geografias desconhecidas pode resultar em dados inutilizáveis ou de baixa qualidade e pode afetar a segurança das partes envolvidas.
Seja um bom administrador de seus conjuntos de dados.
- O gerenciamento inadequado de dados e a documentação deficiente podem resultar em uso indevido de dados.
Nota
Este artigo concentra-se em recomendações para dados humanos, incluindo dados pessoais e dados sensíveis, como dados biométricos, dados de saúde, dados raciais ou étnicos, dados coletados manualmente do público em geral ou funcionários da empresa, bem como metadados relacionados a características humanas, como idade, ascendência e identidade de gênero, que podem ser criados por meio de anotação ou rotulagem.
Descarregue aqui as recomendações completas
Melhores práticas para coletar idade, ancestralidade e identidade de gênero
Para que os sistemas de IA funcionem bem para todos, os conjuntos de dados usados para treinamento e avaliação devem refletir a diversidade de pessoas que usarão ou serão afetadas por esses sistemas. Em muitos casos, idade, ascendência e identidade de gênero podem ajudar a aproximar a gama de fatores que podem afetar o desempenho de um produto para várias pessoas; No entanto, a recolha destas informações requer uma consideração especial.
Se você coletar esses dados, sempre permita que os contribuidores de dados se identifiquem (escolha suas próprias respostas) em vez de fazer com que os coletores de dados façam suposições, o que pode estar incorreto. Inclua também a opção "preferir não responder" para cada pergunta. Estas práticas demonstrarão respeito pelos contribuidores de dados e produzirão dados mais equilibrados e de maior qualidade.
Essas práticas recomendadas foram desenvolvidas com base em três anos de pesquisa com as partes interessadas e colaboração com muitas equipes da Microsoft: grupos de trabalho de equidade e inclusão, Diversidade Global e Inclusão, Preparação Global, Escritório de IA Responsável e outros.
Para permitir que as pessoas se identifiquem, considere usar as seguintes perguntas da pesquisa.
Antiguidade
Quantos anos tens?
Selecione a sua faixa etária
[Incluir faixas etárias apropriadas, conforme definido pelo objetivo do projeto, região geográfica e orientação de especialistas no domínio]
- # a #
- # a #
- # a #
- Prefiro não responder
Ascendência
Por favor, selecione as categorias que melhor descrevem a sua ascendência
Pode selecionar vários
[Incluir categorias apropriadas, conforme definido por finalidade do projeto, região geográfica e orientação de especialistas no domínio]
- Grupo de ancestralidade
- Grupo de ancestralidade
- Grupo de ancestralidade
- Ancestralidade múltipla (multirracial, mista)
- Não listado, descrevo-me como: _________________
- Prefiro não responder
Identidade de género
Como se identifica?
Pode selecionar vários
[Incluir identidades de género adequadas, conforme definido pelo objetivo do projeto, região geográfica e orientação de especialistas no domínio]
- Identidade de género
- Identidade de género
- Identidade de género
- Prefira autodescrever-se: _________________
- Prefiro não responder
Atenção
Em algumas partes do mundo, existem leis que criminalizam categorias específicas de gênero, então pode ser perigoso para os contribuidores de dados responder a essa pergunta honestamente. Dê sempre às pessoas uma forma de optarem por não participar. E trabalhe com especialistas regionais e advogados para conduzir uma revisão cuidadosa das leis e normas culturais de cada lugar onde você planeja coletar dados e, se necessário, evite fazer essa pergunta inteiramente.
Descarregue as orientações completas aqui.
Próximos passos
Para mais informações sobre como trabalhar com os seus dados:
- Proteger o acesso aos dados no Azure Machine Learning
- Opções de ingestão de dados para fluxos de trabalho do Azure Machine Learning
- Otimizar o processamento de dados com o Azure Machine Learning
Siga estes guias de instruções para trabalhar com seus dados depois de coletá-los: