Configurar recursos de voz

Este artigo descreve os recursos disponíveis no Copilot Studio para a resposta interativa de voz com o Dynamics 365 for Customer Service.

Para preparar seu copiloto para serviços de voz, consulte Integrar um copiloto habilitado por voz com o Dynamics 365 for Customer Service.

Para obter uma visão geral dos serviços de voz, consulte Usar resposta interativa de voz em seus copilotos.

Modalidade de fala e DTMF

Um copiloto habilitado para voz é diferente de um copiloto com base em chat. O copiloto habilitado para voz inclui tópicos específicos do sistema de voz para lidar com cenários de voz. Um copiloto com base em chat usa a modalidade de texto como padrão. Um copiloto habilitado para voz usa a modalidade Fala e DTMF. As duas modalidades não são compatíveis entre si.

A opção Otimizar para voz permite que você crie copilotos habilitados para voz em diferentes modalidades e garante que os recursos relacionados à fala sejam criados corretamente.

Otimizar para voz

Se não tiver iniciado o copiloto com o Modelo de voz, você deverá habilitar a opção Otimizar para voz nas Configurações do copiloto.

  1. Com um copiloto aberto, acesse Configurações>Voz.

  2. Selecione Otimizar para voz. A opção Usar voz como modo de criação principal também é definida por padrão.

O copiloto recebe as seguintes atualizações quando você habilita as opções Otimizar para voz e Usar voz como modo de criação principal:

  • A possibilidade de criar recursos de voz quando alternado de texto para Fala e DTMF.
  • Os tópicos do sistema de voz Detecção de silêncio, Fala não reconhecida e Pressionamento desconhecido do teclado de discagem são adicionados automaticamente para lidar com cenários relacionados à fala.
  • Aumentar a precisão com dados do copiloto (ativado por padrão), o que melhora a precisão do reconhecimento de fala.
  • Não há alteração no fluxo do copiloto existente, como o tópico do Menu Principal para iniciar conversas com gatilhos de DTMF mapeados.

Importante

  • A configuração Otimizar para voz altera somente os recursos de criação de voz, não a configuração do canal. Ative o canal de Telefonia para um copiloto totalmente habilitado para voz.
  • Além disso, a configuração Otimizar para voz em um copiloto que não foi originalmente configurado para recursos de voz significa que o copiloto não terá o tópico Menu principal (versão preliminar). Você deve recriar esse tópico, se necessário.

Desabilitar a otimização para voz

Você poderá desabilitar a opção Otimizar para voz na criação do copiloto se não habilitar o canal de Telefonia. Depois de desabilitar a opção Otimizar para voz, você obterá as seguintes alterações:

  • Nenhuma criação de copiloto para recursos de voz, como DTMF e interrupção.
  • A modalidade padrão texto é definida.
  • Nenhuma melhora no reconhecimento de fala, uma vez que não há reconhecimento de fala.
  • Nenhum tópico do sistema de voz ou tópico de DTMF global.

    Observação

    Alguns tópicos poderão relatar erros durante a publicação se houver referência ao tópico de DTMF desabilitado em outros tópicos.

  • Nenhuma alteração no fluxo do copiloto e na configuração do canal, pois desabilitar a otimização não desativa o canal de Telefonia.
  • Habilitar ou desabilitar a opção Otimizar para voz só terá efeito quando você publicar o copiloto. Se o copiloto for habilitado ou desabilitado acidentalmente e alternar entre as modalidades, você terá tempo para corrigir isso.

Importante

Se os seus canais de Telefonia estiverem habilitados, desabilitar a opção Otimizar para voz pode interromper seu copiloto, já que todos os gatilhos de DTMF serão desabilitados automaticamente.

Usar a voz como seu modo de criação principal

A modalidade Fala e DTMF deve ser selecionada para cada nó na criação de recursos de voz. Você pode selecionar a preferência de criação do copiloto como Usar voz como modo de criação principal. Essa configuração garante que todos os campos de entrada tenham a modalidade certa. Se você já tiver habilitado Otimizar para voz, a opção Usar voz como modo de criação principal estará habilitada por padrão.

Disponibilidade de mensagem

Usar a modalidade de texto ou de fala pode afetar seu canal de forma diferente.

Modalidade de texto Modalidade de fala Texto e canal de fala do copiloto
Mensagem disponível Mensagem vazia Mensagem disponível
Mensagem vazia Mensagem disponível Mensagem não disponível

Reconhecimento de fala automático personalizado

Os copilotos habilitados para voz para um domínio específico, como médico ou financeiro, podem fazer com que os usuários usem termos financeiros ou jargões médicos. Alguns termos e jargões são difíceis de fazer a conversão de fala em texto pelo copiloto habilitado para voz.

Para garantir que a entrada de fala seja reconhecida com precisão, você pode melhorar o reconhecimento de fala:

  1. Com o copiloto aberto, selecione Configurações>Voz.

  2. Selecione Aumentar a precisão com dados do copiloto para habilitar as configurações de reconhecimento de fala automáticas personalizadas padrão do copiloto.

  3. Selecione Salvar para confirmar suas alterações.

  4. Publique o copiloto para ver as novas alterações.

Referência de opções de voz no nível do copiloto

A página de configurações Detalhes do copiloto permite que você defina tempos limite para vários recursos relacionados à voz. As configurações aplicadas nessa página se tornam o padrão para os tópicos criados em seu copiloto.

Para fazer alterações nas opções de tempo limite no nível do copiloto:

  1. Com um copiloto aberto, selecione Configurações>Voz.

    Captura de tela das Configurações de voz para um copiloto habilitado para voz.

  2. Select as configurações desejadas e ajuste as configurações padrão do copiloto.

  3. Selecione Salvar para confirmar suas alterações.

Configurações no nível do copiloto

A tabela a seguir lista cada opção e como ela se relaciona com as configurações de nível de nó.

Seção Nível do copiloto habilitado para voz Configuração Descrição Valor padrão Substituir nível de nó
DTMF Tempo de inatividade interdígitos Tempo máximo (milissegundos) permitido enquanto aguarda a próxima entrada de teclas DTMF. Aplica a entrada DTMF de vários dígitos somente quando os usuários não atendem ao tamanho máximo da entrada. 3000 ms Nó de pergunta com propriedades de voz para entrada DTMF de vários dígitos
DTMF Tempo limite de terminação Duração máxima (milissegundos) para aguardar por uma chave DTMF de término. O limite se aplica quando o usuário atinge o tamanho máximo de entrada e não pressiona a chave de término. Aplica-se somente à entrada DTMF de vários dígitos.

Depois que o limite atingir o tempo limite e a chave DTMF de término não for inserida, o copiloto encerrará o reconhecimento e retornará o resultado até aquele ponto.

Se definido como "continuar sem esperar", o copiloto não aguardará a chave de término. O Copilot retornará imediatamente após o usuário inserir o tamanho máximo.
2000 ms Nó de pergunta com propriedades de voz para entrada DTMF de vários dígitos
Detecção de silêncio Tempo limite de detecção de silêncio Silêncio máximo (milissegundos) permitido enquanto aguarda a entrada do usuário. O limite se aplica quando o copiloto não detecta nenhuma entrada do usuário. O padrão é "nenhum tempo limite de silêncio". O copiloto aguarda infinitamente a entrada do usuário.

Detecção de silêncio para voz vezes o período depois que a voz terminar de falar.
Nenhum tempo limite de silêncio Nó de pergunta com propriedades de voz para entrada DTMF de vários dígitos

Tópico do sistema (propriedades do gatilho de detecção de silêncio) para Configurar a detecção de silêncio e tempos limite
Coleta de fala Tempo limite final de enunciado O limite se aplica quando o usuário pausa durante ou após a fala. Se a pausa for maior do que o limite do tempo limite, o copiloto pressupõe que o usuário terminou de falar.

O valor máximo para o tempo limite de término do enunciado é de 3.000 milissegundos. Qualquer tempo acima de 3.000 ms será reduzido para 3.000 milissegundos.
1500 ms Nó de pergunta com propriedades de voz
Coleta de fala Tempo limite de reconhecimento de fala Determina quanto tempo o copiloto permite a entrada do usuário quando ele começa a falar. O valor padrão é de 12.000 milissegundos (cerca de 12 segundos). Nenhum tempo limite de reconhecimento significa tempo infinito. O copiloto faz a pergunta novamente. Se não houver resposta, a voz estará além do Tempo limite de reconhecimento de fala. 12,000 ms Nó de pergunta com propriedades de voz
Mensagens de latência Enviar atraso de mensagem Determina quanto tempo o copiloto aguarda antes de entregar a mensagem de latência após o início de uma solicitação de operação em segundo plano. O tempo é definido em milissegundos. 500 ms Propriedades do nó de Ação para operação de execução prolongada
Mensagens de latência Tempo mínimo de reprodução A mensagem de latência será reproduzida por um período mínimo de tempo, mesmo se a operação em segundo plano for concluída enquanto a mensagem estiver sendo reproduzida. O tempo é definido em milissegundos. 5000 ms Propriedades do modo de Ação para operação de execução prolongada
Sensibilidade à fala Confidencialidade Controla como o sistema equilibra a detecção de fala e ruído de fundo. Diminua a sensibilidade para ambientes barulhentos, espaços públicos e operação mãos-livres. Aumente a sensibilidade para ambientes silenciosos, usuários de fala suave ou detecção de comandos de voz. A configuração padrão é 0.5. 0.5 There não há substituições de nível de nó para este controle.

Habilitar a interrupção

Habilitar a interrupção permite que os usuários do copiloto interrompam seu copiloto. Esse recurso pode ser útil quando você não precisa que o usuário do copiloto ouça a mensagem inteira. Por exemplo, os chamadores podem já conhecer as opções do menu, porque as ouviram no passado. Com a interrupção, o usuário do copiloto pode inserir a opção que deseja, mesmo que o copiloto não tenha terminado de listar todas as opções.

Cenários de desabilitação de interrupção

  • Desative a interrupção se você tiver atualizado recentemente uma mensagem do copiloto ou se a mensagem de conformidade não puder ser interrompida.
  • Desabilite a interrupção para a primeira mensagem do copiloto para garantir que os usuários fiquem cientes de informações novas ou essenciais.

Especificações

  • A interrupção oferece suporte a interrupções baseadas em DTMF e em voz do usuário do copiloto.

  • A interrupção pode ser controlada com cada mensagem, em um lote. Posicione nós barge-in-disabled em sequência antes de cada nó em que a interrupção seja permitida. Caso contrário, "interrupção desabilitada" será tratado como uma mensagem "permitir interrupção".

    Captura de tela dos posicionamentos de interrupção e de interrupção desabilitada nos nós de mensagem.

    Uma vez que uma fila em lote é concluída, a configuração automática de interrupção é redefinida para o próximo lote e controlada pelo sinalizador de interrupção em cada mensagem subsequente. Você poderá posicionar nós de interrupção desabilitada quando a sequência for iniciada novamente.

Dica

Se houver nós de mensagem consecutivos, seguidos por um nó de pergunta, as mensagens de voz para esses nós serão definidas como um lote. Um lote começa com um nó de mensagem e para no nó da pergunta, que aguarda a entrada do usuário.

Evite desabilitar a interrupção para mensagens longas, especialmente se você espera que os usuários do copiloto interajam com ele com frequência. Se o usuário do copiloto já conhece as opções de menu, permita que ele faça o autoatendimento como preferir.

Configurar a interrupção

  1. Com um nó de Mensagem ou de Pergunta selecionado, defina a modalidade desejada como Fala e DTMF.

  2. Selecione o ícone Mais () do nó de Gatilho e selecione Propriedades.

    1. Em nós de Mensagem, o painel Enviar propriedades da atividade será aberto na lateral da tela de criação.

      Selecione Permitir interrupção.

    2. Em nós de Pergunta, o painel Propriedades da pergunta será aberto. Selecione Voz.

      Nas propriedades de Voz, selecione Permitir interrupção.

  3. Salve o tópico para confirmar suas alterações.

Configurar a detecção de silêncio e tempos limite

A detecção de silêncio permite configurar quanto tempo o copiloto espera pela entrada do usuário e a ação que ele executa se nenhuma entrada for recebida. A detecção de silêncio é mais útil em resposta a uma pergunta no nível do nó ou quando o copiloto aguarda uma frase de gatilho para iniciar um novo tópico.

Você pode configurar os tempos limite padrão para os tópicos.

Para substituir os padrões para um nó:

  1. Selecione o ícone Mais () do nó de Gatilho e selecione Propriedades.

    O painel Propriedades da pergunta será aberto.

  2. Selecione Voz e faça ajustes nas seguintes configurações:

    Opção de tempo limite de detecção de silêncio Description
    Usar a configuração do copiloto O nó usa a configuração global para a detecção de silêncio.
    Desabilitar para este nó O copiloto aguarda indefinidamente por uma resposta.
    Personalizar em milissegundos O copiloto aguarda um tempo especificado antes de repetir a pergunta.

Ação de fallback

Você pode configurar alguns comportamentos como uma ação de fallback:

  • Quantas vezes o copiloto deve repetir uma pergunta
  • O que a mensagem de nova solicitação deve dizer
  • O que o copiloto deve fazer após um número especificado de repetições

Entrada de fala

Para a entrada de fala, você pode especificar:

  • Tempo limite de término do enunciado: quanto tempo o copiloto espera depois que o usuário termina de falar
  • Tempo limite de reconhecimento de fala: quanto tempo o copiloto concede ao usuário quando ele começa a responder

Para configurar o comportamento de detecção de silêncio quando o copiloto aguarda uma frase de gatilho, ajuste as configurações no tópico do sistema Em silêncio.

Adicionar uma mensagem de latência para operações de execução prolongada

Para operações de back-end longas, o copiloto pode enviar uma mensagem aos usuários para notificá-los sobre processos mais longos. Os copilotos em um canal de mensagens também podem enviar uma mensagem de latência.

Reprodução de áudio de mensagem de latência Mensagem de latência no chat
Continua a fazer loop até que a operação seja concluída. Enviado somente uma vez quando a latência especificada é atingida.

No Copilot Studio, o copiloto pode repetir uma mensagem depois de desencadear um fluxo do Power Automate:

  1. Adicione um nó de Ação que aciona um fluxo.

  2. Selecione o ícone Mais () do nó de Gatilho e selecione Propriedades. O painel Propriedades da ação será aberto.

  3. Selecione Enviar uma mensagem.

  4. Na seção Mensagem, insira o que você quer que o copiloto diga Você pode usar SSML para modificar o som da mensagem. O copiloto repetirá a mensagem até que o fluxo seja concluído.

Você pode ajustar quanto tempo o copiloto deve aguardar antes de repetir a mensagem na seção Atraso. Você pode definir um tempo mínimo de espera, mesmo que o fluxo seja concluído.

Configurar o encerramento da chamada

Para configurar seu copiloto para encerrar a chamada e desligar, adicione um novo nó (+) e selecione Gerenciamento de tópicos>Encerrar a conversa.

Captura de tela de um novo menu de nó com Gerenciamento de tópicos e Encerrar a conversa realçados.

Formatar síntese de fala com SSML

Você pode usar SSML (Speech Synthesis Markup Language) para alterar como o copiloto soa ao ler mensagens em voz alta. Por exemplo, você pode alterar o tom ou a frequência das palavras faladas, a velocidade e o volume.

SSML usa marcas para delimitar o texto que você deseja modificar, semelhante ao HTML. Você pode usar as seguintes marcas no Copilot Studio:

Marca SSML Descrição Link para a documentação do serviço de fala
<audio src="_URL to an audio file_"/> Adicione a URL a um arquivo de áudio na marca. O arquivo deve ser acessível pelo usuário do copiloto. Adicionar áudio gravado
<break /> Insira pausas ou intervalos entre as palavras. Insira opções de intervalo na marca. Adicionar um intervalo
<emphasis>Texto que você deseja modificar</emphasis> Adicione níveis de estresse às palavras ou frases. Adicione opções de ênfase na marca de abertura. Adicione a marca de fechamento após o texto que você deseja modificar. Ajustar opções de ênfase
<prosody>Texto que você deseja modificar</prosody> Especifique as alterações de tom, contorno, intervalo, taxa e volume. Adicione opções de prosódia na marca de abertura. Adicione a marca de fechamento após o texto que você deseja modificar. Ajustar opções de prosódia

Observação

Para copilotos multilíngues, você deve incorporar a marca SSML <lang xml:lang>. Para obter mais informações, consulte Vozes multilíngues com o elemento de linguagem.

Captura de tela de uma mensagem de fala com tags SSML adicionadas.

Encontrar e usar uma marca

SSML usa marcas para delimitar o texto que você deseja modificar, como o HTML.

Você pode usar as seguintes marcas no Copilot Studio:

  1. Com um nó de Mensagem ou de Pergunta selecionado, altere o modo para Fala e DTMF.

  2. Selecione o menu Marcas SSML e selecione uma marca.

    A caixa de mensagem será preenchida com a marca. Se já tiver texto na caixa de mensagem, o código da marca será acrescentado ao final da mensagem.

  3. Envolva o texto que deseja modificar com as marcas de abertura e fechamento. Você pode combinar várias marcas e personalizar partes individuais da mensagem com marcas individuais.

Dica

Você também pode inserir manualmente as marcas SSML que não aparecem no menu auxiliar. Para saber mais sobre outras marcas disponíveis, consulte Aprimorar a síntese com Speech Synthesis Markup Language.

Transferir uma chamada para um representante ou número de telefone externo

Você pode fazer com que o copiloto transfira a chamada para um número de telefone externo. O Copilot Studio oferece suporte à transferência cega para um número de telefone PSTN e para o número de roteamento direto.

Para transferir para um número de telefone externo:

  1. No tópico que você deseja modificar, adicione um novo nó (+). No menu do nó, selecione Gerenciamento de tópicos e selecione Transferir conversa.

  2. Em Tipo de transferência, selecione Transferência para número de telefone externo e insira o número de telefone.

  3. (Opcionalmente) adicione um cabeçalho SIP UUI ao telefonema.

    Esse cabeçalho é uma cadeia de pares key=value, sem espaços ou caracteres especiais, exibida para leitura por sistemas externos.

    1. Selecione o ícone Mais () do nó de Gatilho e selecione Propriedades. O painel propriedades de Transferir conversa será aberto.

    2. Em cabeçalho SIP UUI, insira as informações que deseja enviar com a transferência de chamada. Não há suporte a variáveis durante a transferência para um número de telefone externo.

    Cuidado

    Somente os primeiros 128 caracteres na cadeia de caracteres são enviados.

    O cabeçalho aceita somente números, letras, sinais de igualdade (=) e ponto e vírgula (;). Não há suporte a todos os outros caracteres, incluindo espaços, chaves e colchetes, ou fórmulas, e podem causar uma falha na transferência.

Dica

Inclua um + no número de telefone para o código do país correspondente.

A saída de transferência com SIP UUI para o número de telefone de destino deve usar roteamento direto. Os números de telefone da PSTN (rede telefônica pública comutada) não oferecem suporte a transferências de cabeçalho SIP UUI.

Para transferir para um representante, consulte Gatilhos explícitos.

Usar variáveis de voz

O Copilot Studio oferece suporte ao preenchimento de variáveis. Você pode usar variáveis predefinidas ou criar variáveis personalizadas.

Observação

Um copiloto habilitado para voz no Copilot Studio oferece suporte a variáveis de contexto. Essas variáveis ajudam a integrar suas conversas do copiloto com o Dynamics 365 for Customer Service ao transferir uma chamada.

Para obter mais informações sobre variáveis no Dynamics 365 for Customer Service, consulte Variáveis de contexto para bots do Copilot Studio.

Esta integração oferece suporte a estes cenários com as seguintes variáveis quando você transfere:

Variável Type Description
System.Activity.From.Name String O ID de chamador do usuário do copiloto
System.Activity.Recipient.Name Cadeia de caracteres O número usado para ligar ou conectar-se ao copiloto
System.Conversation.SipUuiHeaderValue Cadeia de caracteres Valor do cabeçalho SIP ao transferir por meio de um número de telefone de roteamento direto
System.Activity.UserInputType Cadeia de caracteres Se o usuário do copiloto usou DTMF ou fala na conversa
System.Activity.InputDTMFKey Cadeia de caracteres A entrada DTMF bruta do usuário do copiloto
System.Conversation.OnlyAllowDTMF Booliano O Serviço de Voz ignora a entrada de fala quando definida como verdadeiro
System.Activity.SpeechRecognition.Confidence Número O valor de confiança (entre 0 e 1) do último evento de reconhecimento de fala
System.Activity.SpeechRecognition.MinimalFormattedText Cadeia de caracteres Resultados de reconhecimento de fala (como texto bruto) antes Copilot Studio de aplicados seu modelo dedicado de reconhecimento de linguagem natural

Observação

  • Um copiloto com grandes frases de gatilho e dimensionamento de entidade leva mais tempo para ser publicado.
  • Se vários usuários publicarem o mesmo copiloto ao mesmo tempo, sua ação de publicação será bloqueada. Você deverá republicar o copiloto depois que os outros terminarem suas edições existentes do copiloto.

Para saber mais sobre os fundamentos da publicação, consulte Conceitos principais – Publicar e implantar seu copiloto.