O que é detecção de Informações de Identificação Pessoal (PII) na Linguagem de IA do Azure?
A partir de junho de 2024, forneceremos suporte de disponibilidade geral para o serviço de PII de Conversação (Somente em inglês). Agora, os clientes podem redigir transcrições, chats e outros textos escritos em um estilo de conversação (ou seja, texto com “um”s, “ah”s, vários falantes e a grafia de palavras para maior clareza) com mais confiança na qualidade da IA, suporte ao SLA do Azure e suporte ao ambiente de produção, além de segurança de nível empresarial em mente.
A detecção de idioma é um dos recursos oferecidos pela Linguagem de IA do Azure, uma coleção de aprendizado de máquina e algoritmos de IA na nuvem para o desenvolvimento de aplicativos inteligentes que envolvem linguagem escrita. O recurso de detecção de PII pode identificar, categorizar e redigir informações confidenciais em texto não estruturado. Por exemplo: números de telefone, endereços de e-mail e formulários de identificação. A Linguagem de IA do Azure dá suporte à redação de PII de texto geral, assim como PII de Conversação, um modelo especializado para lidar com transcrições de fala e o tom mais informal e conversacional das transcrições de reunião e chamada. O serviço também dá suporte à Redação de PII de Documento Nativo, em que a entrada e a saída são arquivos de documento estruturados.
- Os guias de início rápido são instruções de introdução que orientam sobre como fazer solicitações ao serviço.
- Os guias de instruções contêm instruções de uso do serviço de maneiras mais específicas ou personalizadas.
- Os artigos conceituais fornecem explicações detalhadas sobre a funcionalidade e os recursos do serviço.
Fluxo de trabalho típico
Para usar esse recurso, você envia dados para análise e manipula a saída da API em seu aplicativo. A análise é realizada no estado em que se encontra, sem nenhuma personalização adicionada para o modelo usado nos seus dados.
Crie um recurso da Linguagem de IA do Azure, que concede a você acesso aos recursos oferecidos pela Linguagem de IA do Azure para o idioma. Ele gera uma senha (chamada de chave) e uma URL de ponto de extremidade que você usa para autenticar solicitações de API.
Crie uma solicitação usando a API REST ou a biblioteca de cliente para C#, Java, JavaScript e Python. Você também pode enviar chamadas assíncronas com uma solicitação em lote para combinar solicitações de API para vários recursos em uma só chamada.
Envie a solicitação que contém seus dados de texto. A chave e o ponto de extremidade são usados para autenticação.
Transmita por streaming ou armazene a resposta localmente.
Suporte a documentos nativos
Um documento nativo se refere ao formato de arquivo usado para criar o documento original, como Microsoft Word (docx) ou um formato portátil de documento (pdf). O suporte a documentos nativos elimina a necessidade de um pré-processamento de texto antes de usar as funcionalidades do recurso Linguagem de IA do Azure. Atualmente, o suporte a documentos nativos está disponível para a funcionalidade PiiEntityRecognition.
Atualmente, o PII dá suporte aos seguintes formatos de documentos nativos:
Tipo de arquivo | Extensão de arquivo | Descrição |
---|---|---|
Texto | .txt |
Um documento de texto não formatado. |
Adobe PDF | .pdf |
Um documento formatado em formato portátil de documento. |
Microsoft Word | .docx |
Um arquivo de documento do Microsoft Word. |
Para mais informações, consulte Usar documentos nativos para processamento de linguagem
Introdução à detecção de PII
Para usar a detecção de PII, você envia um texto para análise e se encarrega do resultado da API no seu aplicativo. A análise é realizada no estado em que se encontra, sem nenhuma personalização para o modelo usado nos seus dados. Há duas maneiras de usar a detecção de PII:
Opção de desenvolvimento | Descrição |
---|---|
Language Studio | O Language Studio é uma plataforma baseada na Web que permite que você experimente a vinculação de entidade com exemplos de texto sem uma conta do Azure, e seus próprios dados quando você se inscreve. Para obter mais informações, confira o site do Language Studio ou o início rápido do Language Studio. |
API REST ou biblioteca de clientes (SDK do Azure) | Integre a detecção de PII aos seus aplicativos usando a API REST, ou a biblioteca de clientes disponível em diversos idiomas. Para saber mais, confira o guia de início rápido da detecção de PII. |
Documentação de referência e exemplos de código
Quando usar esse recurso nos seus aplicativos, confira a seguinte documentação de referência e as amostras de Linguagem de IA do Azure:
Opção/idioma de desenvolvimento | Documentação de referência | Exemplos |
---|---|---|
API REST | Documentação da API REST | |
C# | Documentação do C# | Exemplos do C# |
Java | Documentação do Java | Exemplos do Java |
JavaScript | Documentação do JavaScript | Exemplos de JavaScript |
Python | Documentação do Python | Exemplos em Python |
IA responsável
Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, que serão afetadas por ela e o ambiente em que foi implantada. Leia a nota de transparência sobre PII para saber mais sobre o uso responsável de IA e a implantação em seus sistemas. Para obter mais informações, consulte os seguintes artigos:
- Nota de Transparência para a Linguagem de IA do Azure
- Integração e uso responsável
- Dados, privacidade e segurança
Cenários de exemplo
- Aplicar rótulos de confidencialidade – por exemplo, com base nos resultados do serviço PII, um rótulo de confidencialidade pública pode ser aplicado a documentos em que nenhuma entidade PII é detectada. Para documentos em que endereços e números de telefone dos EUA são reconhecidos, um rótulo confidencial pode ser aplicado. Um rótulo altamente confidencial pode ser usado para documentos em que os números de roteamento bancário são reconhecidos.
- Rasurar algumas categorias de informações pessoais de documentos que obtêm circulação mais ampla — por exemplo, se os registros de contato do cliente estiverem acessíveis para representantes de atendimento da linha de frente, talvez a empresa queira rasurar da versão do histórico do cliente as informações pessoais, com exceção do nome, para preservar a privacidade do cliente.
- Rasurar informações pessoais para reduzir o preconceito inconsciente — por exemplo, durante o processo de revisão de currículo por uma empresa, pode ser desejável bloquear o nome, endereço e número de telefone para ajudar a reduzir o preconceito inconsciente de gênero ou outros.
- Substitua informações pessoais nos dados de origem para aprendizado de máquina para reduzir a injustiça – por exemplo, se você quiser remover nomes que possam revelar gênero ao treinar um modelo de machine learning, você poderá usar o serviço para identificá-los e substituí-los por espaços reservados genéricos para treinamento de modelo.
- Remover informações pessoais da transcrição do call center – por exemplo, se você quiser remover nomes ou outros dados PII que ocorrem entre o agente e o cliente em um cenário de call center. Você pode usar o serviço para identificá-los e removê-los.
- Limpeza de dados para ciência de dados – o PII pode ser usado para preparar os dados para que cientistas de dados e engenheiros possam usar esses dados para treinar seus modelos de aprendizado de máquina. Redigir os dados para garantir que os dados do cliente não sejam expostos.
Próximas etapas
Há duas maneiras de começar a usar o recurso de vinculação de entidade:
- Language Studio, que é uma plataforma baseada na Web que permite experimentar vários recursos do serviço de Linguagem sem a necessidade de escrever código.
- O artigo de início rápido para obter instruções de como fazer solicitações para o serviço usando a API REST e o SDK da biblioteca de clientes.