Como configurar os filtros de conteúdo com o Serviço OpenAI do Azure

O sistema de filtragem de conteúdo integrado ao Serviço OpenAI do Azure é executado junto com os modelos principais, incluindo os modelos de geração de imagem DALL-E. Ele usa um conjunto de modelos de classificação de várias classes para detectar quatro categorias de conteúdo nocivo (violência, ódio, sexual e automutilação) em quatro níveis de gravidade, respectivamente (seguro, baixo, médio e alto), e classificadores binários opcionais para detectar o risco de violação de cadeias, texto existente e código nos repositórios públicos. A configuração de filtragem de conteúdo padrão é definida para filtrar no limite de gravidade médio para todas as quatro categorias de danos de conteúdo para prompts e conclusões. Isso significa que o conteúdo detectado no nível de gravidade médio ou alto é filtrado, enquanto o conteúdo detectado no nível de gravidade baixo ou seguro não é filtrado pelos filtros de conteúdo. Saiba mais sobre as categorias de conteúdo, os níveis de gravidade e o comportamento do sistema de filtragem de conteúdo aqui. A detecção de risco de jailbreak e os modelos de texto e código protegidos são opcionais e desativados por padrão. Para modelos de código e texto de material protegido e jailbreak, o recurso de configurabilidade permite que todos os clientes ativem e desativem os modelos. Os modelos estão desativados por padrão e podem ser ativados de acordo com seu cenário. Alguns modelos devem estar ativados para determinados cenários manterem a cobertura no Compromisso de Direitos Autorais do Cliente.

Observação

Todos os clientes têm a capacidade de modificar os filtros de conteúdo e configurar os limites de gravidade (baixo, médio, alto). A aprovação é necessária para desativar parcial ou totalmente os filtros de conteúdo. Os clientes gerenciados só podem solicitar o controle total da filtragem de conteúdo por meio deste formulário: Revisão de acesso limitado do OpenAI do Azure: Filtros de Conteúdo Modificados. No momento, não é possível se tornar um cliente gerenciado.

Os filtros de conteúdo podem ser configurados no nível do recurso. Uma vez que uma nova configuração é criada, ela pode ser associada a uma ou mais implantações. Para obter mais informações sobre a implantação do modelo, consulte o Guia de implantação de recursos.

Pré-requisitos

  • Você precisa ter um recurso de OpenAI do Azure e uma implantação de LLM (modelo de linguagem grande) para configurar filtros de conteúdo. Siga nosso início rápido para começar.

Entender a configurabilidade do filtro de conteúdo

O Serviço OpenAI do Azure inclui configurações de segurança padrão aplicadas a todos os modelos, excluindo o Whisper do OpenAI do Azure. Essas configurações fornecem uma experiência responsável por padrão, incluindo modelos de filtragem de conteúdo, listas de bloqueio, transformação de prompt, credenciais de conteúdo e outros. Leia mais sobre isso aqui.

Todos os clientes também podem configurar filtros de conteúdo e criar políticas de segurança personalizadas adaptadas aos requisitos de caso de uso. O recurso de configurabilidade permite que os clientes ajustem as configurações, separadamente para prompts e conclusões, para filtrar o conteúdo de cada categoria de conteúdo em diferentes níveis de gravidade, conforme descrito na tabela abaixo. O conteúdo detectado no nível de gravidade "seguro" é rotulado em anotações, mas não está sujeito a filtragem e não é configurável.

Gravidade filtrada Configurável para prompts Configurável para conclusões Descrições
Baixo, médio ou alto Sim Sim Configuração de filtragem mais rigorosa. O conteúdo detectado nos níveis de gravidade baixo, médio e alto é filtrado.
Médio, alto Sim Yes O conteúdo detectado no nível de severidade baixo não é filtrado, enquanto o conteúdo nos níveis médio e alto é filtrado.
Alto Sim Yes O conteúdo detectado nos níveis de gravidade baixo e médio não será filtrado. Somente o conteúdos com nível de gravidade alto serão filtrados.
Nenhum filtro Se aprovado1 Se aprovado1 nenhum conteúdo será filtrado, independentemente do nível de gravidade detectado. Exige aprovação1.
Anotar somente Se aprovado1 Se aprovado1 Desabilita a funcionalidade de filtro para que o conteúdo não seja bloqueado, mas as anotações são retornadas por meio da resposta à API. Exige aprovação1.

1 Para modelos de OpenAI do Azure, somente os clientes aprovados para filtragem de conteúdo modificado têm o controle completo de filtragem de conteúdo e podem desativar os filtros de conteúdo. Aplique filtros de conteúdo modificados por meio deste formulário: Revisão de acesso limitado do OpenAI do Azure: filtros de conteúdo modificados. Para clientes do Azure Governamental, solicite filtros de conteúdo modificados por meio deste formulário: Azure Governamental – Solicitar filtragem de conteúdo modificada para o Serviço OpenAI do Azure.

Filtros de conteúdo configuráveis para entradas (prompts) e saídas (conclusões) estão disponíveis para os seguintes modelos do Azure OpenAI:

  • Série de modelos GPT
  • GPT-4 Turbo com Visão GA* (turbo-2024-04-09)
  • GPT-4o
  • GPT-4o mini
  • DALL-E 2 e 3

Os filtros de conteúdo configuráveis não estão disponíveis para

  • o1-preview
  • o1-mini

*Disponível apenas para o GPT-4 Turbo Vision em disponibilidade geral, não se aplica à versão prévia do GPT-4 Turbo Vision

As configurações de filtragem de conteúdo são criadas em um Recurso no Estúdio de IA do Azure e podem ser associadas a Implantações. Saiba mais sobre configurabilidade aqui.

Os clientes são responsáveis por garantir que os aplicativos que integram o OpenAI do Azure estejam em conformidade com o Código de conduta.

Entender outros filtros

Você pode configurar as categorias de filtro a seguir, além dos filtros de categoria de danos padrão.

Categoria de filtro Status Configuração padrão Aplicado ao prompt ou à conclusão? Descrição
Prompt Shields para ataques diretos (jailbreak) GA Ativado Prompt de usuário Filtra/anota os prompts do usuário que podem apresentar um risco de jailbreak. Para obter mais informações sobre anotações, acesse Filtragem de conteúdo do Serviço OpenAI do Azure.
Prompt Shields para ataques indiretos GA Ativado Prompt de usuário Filtre/anote ataques indiretos, também conhecidos como ataques de prompt indireto ou ataques de injeção de prompt entre domínios, uma vulnerabilidade potencial onde terceiros colocam instruções maliciosas dentro de documentos que o sistema de IA generativa pode acessar e processar. Obrigatório: Formatação de documento.
Material protegido – código GA Ativado Completion Filtra o código protegido ou obtém as informações de citação e licença de exemplo em anotações para snippets de código que correspondem a quaisquer fontes de código público, alimentadas pelo GitHub Copilot. Para obter mais informações sobre como consumir anotações, confira oguia de conceitos de filtragem de conteúdo
Material protegido – texto GA Ativado Completion Identifica e impede que o conteúdo de texto conhecido seja exibido na saída do modelo (por exemplo, letras de música, receitas e conteúdo da Web selecionado).

Configurar filtros de conteúdo por meio do Estúdio de OpenAI do Azure

As seguintes etapas mostram como definir uma configuração de filtragem de conteúdo personalizada para seu recurso.

  1. Acesse o Estúdio de OpenAI do Azure e navegue até a guia Filtros de Conteúdo (na navegação inferior esquerda, conforme indicado pela caixa vermelha abaixo).

    Captura de tela da interface do usuário do Estúdio de IA com filtros de conteúdo realçados.

  2. Criar uma nova configuração personalizada de filtragem de conteúdo.

    Captura de tela da interface do usuário da configuração de filtragem de conteúdo com a criação selecionada.

    Isso leva à seguinte exibição de configuração, na qual você pode escolher um nome para a configuração da filtragem de conteúdo personalizada. Depois de inserir um nome, você pode configurar os filtros de entrada (prompts do usuário) e os filtros de saída (resposta do modelo). Para as quatro primeiras categorias de conteúdo, há três níveis de gravidade configuráveis: baixo, médio e alto. Você pode usar os controles deslizantes para definir o limite de severidade se determinar que o seu aplicativo ou cenário de uso exigem uma filtragem diferente dos valores padrão. Alguns filtros permitem determinar se o modelo deve anotar e/ou bloquear. Selecionar Anotar executa o respectivo modelo e retorna anotações por meio da resposta à API, mas não filtrará o conteúdo. Além das anotações, você também pode optar por filtrar o conteúdo alternando a alternância filtro para ativada.

    Se seu caso de uso foi aprovado para filtros de conteúdo modificados conforme descrito acima, você receberá controle total sobre as configurações de filtragem de conteúdo e você pode escolher desativar a filtragem parcial ou completamente.

    Captura de tela da interface do usuário da configuração de filtragem de conteúdo.

  3. Você pode criar várias configurações de filtragem de conteúdo de acordo com suas necessidades.

    Captura de tela de várias configurações de conteúdo no portal do Azure.

  4. Em seguida, para tornar operacional uma configuração de filtragem de conteúdo personalizada, atribua uma configuração a uma ou mais implantações no seu recurso. Para fazer isso, vá para a guia Implantações e selecione a sua implantação. Em seguida, selecione Editar.

    Captura de tela da configuração de filtragem do conteúdo com a implantação da edição destacada.

  5. Na janela Atualizar implantação exibida, selecione o seu filtro personalizado no menu suspenso Filtro de conteúdo. Em seguida, selecione Salvar e fechar para aplicar a configuração selecionada à implantação.

    Captura de tela da configuração da implantação da edição com filtro de conteúdo selecionado.

  6. Você também pode editar e excluir uma configuração de filtro de conteúdo, se necessário. Para fazer isso, navegue até a guia filtros de conteúdo e selecione uma configuração. Em seguida, selecione a ação desejada. Você só pode editar uma configuração de filtragem por vez.

    Captura de tela da configuração do filtro de conteúdo com edição e exclusão destacadas.

    Observação

    Antes de excluir uma configuração de filtragem de conteúdo, será necessário desatribuí-la de qualquer implantação na guia Implantações.

Seguir as práticas recomendadas

Recomendamos que você informe suas decisões de configuração de filtragem de conteúdo por meio de um processo iterativo de identificação (por exemplo, teste de agrupamento vermelho, teste de estresse e análise) e medição para abordar os possíveis danos que são relevantes para um modelo, aplicativo e cenário de implantação específicos. Após a implementação de mitigações, como a filtragem de conteúdo, repita a medição para testar a eficácia. Recomendações e práticas recomendadas para IA Responsável para o OpenAI do Azure, com base no IA Responsável da Microsoft Standard, podem ser encontradas na Visão Geral de IA Responsável para o OpenAI do Azure.