Guia de início rápido: introdução à CLI de Fala do Azure AI
Neste artigo, você aprenderá a usar a CLI de Fala do Azure AI (também chamada SPX) para acessar serviços de Fala, como fala para texto, texto para fala e tradução de fala, sem precisar escrever nenhum código. A CLI de fala está pronta para produção e você pode usá-la para automatizar fluxos de trabalho simples no serviço de fala usando .bat
scripts ou shell.
Este artigo pressupõe que você tenha conhecimento prático da janela do Prompt de Comando, terminal ou PowerShell.
Nota
No PowerShell, o token de análise de parada (--%
) deve seguir spx
. Por exemplo, execute spx --% config @region
para exibir o valor de configuração da região atual.
Transferir e instalar
Siga estas etapas para instalar a CLI de fala no Windows:
Instale o Microsoft Visual C++ Redistributable for Visual Studio 2019 para sua plataforma. Instalá-lo pela primeira vez pode exigir uma reinicialização.
Instale o .NET 6.
Instale a CLI de Fala por meio da CLI do .NET digitando este comando:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
Para atualizar a CLI de fala, digite este comando:
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
Insira spx
ou spx help
veja ajuda para a CLI de fala.
Limitações de fontes
No Windows, a CLI de Fala pode mostrar apenas fontes que estão disponíveis para o prompt de comando no computador local. O Terminal do Windows suporta todas as fontes que a CLI de Fala produz interativamente.
Se você enviar para um arquivo, um editor de texto como o Bloco de Notas ou um navegador da Web como o Microsoft Edge também poderá mostrar todas as fontes.
Criar uma configuração de recurso
Para começar, você precisa de uma chave de recurso de fala e um identificador de região (por exemplo, eastus
westus
, ). Crie um recurso de Fala no portal do Azure. Para obter mais informações, consulte Criar um recurso de serviços de IA do Azure.
Para configurar a chave de recurso e o identificador de região, execute os seguintes comandos:
spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION
A chave e a região são armazenadas para futuros comandos da CLI de fala. Para exibir a configuração atual, execute os seguintes comandos:
spx config @key
spx config @region
Conforme necessário, inclua a opção para remover qualquer clear
valor armazenado:
spx config @key --clear
spx config @region --clear
Utilização básica
Importante
Ao usar a CLI de fala em um contêiner, inclua a --host
opção. Você também deve especificar --key none
para garantir que a CLI não tente usar uma chave de fala para autenticação. Por exemplo, execute spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav
para reconhecer a fala de um arquivo de áudio em um contêiner de fala para texto.
Esta seção mostra alguns comandos básicos do SPX que geralmente são úteis para testes e experimentos pela primeira vez. Execute o seguinte comando para visualizar a ajuda na ferramenta:
spx
Você pode pesquisar tópicos de ajuda por palavra-chave. Por exemplo, para ver uma lista de exemplos de uso da CLI de fala, execute o seguinte comando:
spx help find --topics "examples"
Para ver as opções do recognize
comando, execute o seguinte comando:
spx help recognize
Mais comandos de ajuda estão listados na saída do console. Você pode inserir esses comandos para obter ajuda detalhada sobre subcomandos.
Conversão de fala em texto (reconhecimento de fala)
Nota
Não é possível usar o microfone do computador quando você executa a CLI de fala em um contêiner do Docker. No entanto, você pode ler e salvar arquivos de áudio em seu diretório montado local.
Para converter fala em texto (reconhecimento de fala) usando o microfone padrão do sistema, execute o seguinte comando:
spx recognize --microphone
Depois de executar o comando, o SPX começa a ouvir áudio no dispositivo de entrada ativo atual. Ele para de ouvir quando você seleciona Enter. O áudio falado é então reconhecido e convertido em texto na saída do console.
Com a CLI de fala, você também pode reconhecer a fala de um arquivo de áudio. Execute o seguinte comando:
spx recognize --file /path/to/file.wav
Gorjeta
Se você ficar preso ou quiser saber mais sobre as opções de reconhecimento da CLI de fala, poderá executar spx help recognize
o .
Conversão de texto em fala (síntese de fala)
O comando a seguir usa o texto como entrada e, em seguida, envia a fala sintetizada para o dispositivo de saída ativo atual (por exemplo, os alto-falantes do computador).
spx synthesize --text "Testing synthesis using the Speech CLI" --speakers
Você também pode salvar a saída sintetizada em um arquivo. Neste exemplo, vamos criar um arquivo chamado my-sample.wav no diretório onde você está executando o comando.
spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav
Estes exemplos presumem que está a testar em inglês. No entanto, o serviço de fala suporta síntese de fala em muitos idiomas. Você pode obter uma lista completa de vozes executando o seguinte comando ou visitando a página de suporte a idiomas.
spx synthesize --voices
Aqui está um comando para usar uma das vozes que você descobriu.
spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers
Gorjeta
Se você ficar preso ou quiser saber mais sobre as opções de reconhecimento da CLI de fala, poderá executar spx help synthesize
o .
Tradução de fala para texto
Com a CLI de fala, você também pode fazer tradução de fala para texto. Execute o seguinte comando para capturar o áudio do microfone padrão e produzir a tradução como texto. Tenha em mente que você precisa fornecer o source
e target
idioma com o translate
comando.
spx translate --microphone --source en-US --target ru-RU
Quando estiver traduzindo para vários idiomas, separe os códigos de idioma com um ponto-e-vírgula (;
).
spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'
Se você quiser salvar a saída da sua tradução, use o --output
sinalizador. Neste exemplo, você também lê a partir de um arquivo.
spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt
Gorjeta
Se você ficar preso ou quiser saber mais sobre as opções de reconhecimento da CLI de fala, poderá executar spx help translate
o .