Migración de una voz personalizada a una voz neuronal personalizada

Artículo
09/20/2024

Importante

El nivel de entrenamiento estándar no neuronal de la voz personalizada se retira a partir del 29 de febrero de 2024. Podría haber usado una voz personalizada no neuronal con el recurso de Voz antes del 29 de febrero de 2024. Ahora solo puede usar la voz neuronal personalizada con los recursos de Voz. Si tiene una voz personalizada no neuronal, debe migrar a voz neuronal personalizada.

La voz neuronal personalizada permite crear modelos de voz de mayor calidad y, al mismo tiempo, requerir menos datos. Puede desarrollar voces más realistas, naturales y conversacionales. Los clientes y los usuarios finales se benefician de la tecnología de texto a voz más reciente de forma responsable.

Voz personalizada	Voz neuronal personalizada
El método estándar o "tradicional" de voz personalizada divide el lenguaje hablado en fragmentos de código fonéticos que se pueden combinar y relacionar mediante métodos estadísticos o de programación clásicos.	La voz neuronal personalizada sintetiza la voz mediante redes neuronales profundas que han "aprendido" la manera en que se combina la fonética en la voz humana natural, en lugar de usar métodos estadísticos o de programación clásicos.
La voz personalizada ¹ requiere un gran volumen de datos de voz para generar un modelo de voz más humano. Con menos líneas grabadas, un modelo de voz personalizado estándar tiende a parecer más robotizado.	La funcionalidad de voz neuronal personalizada le permite crear una voz de marca única en varios idiomas y estilos mediante un pequeño conjunto de grabaciones.

¹ El número máximo de archivos de datos que se pueden importar por suscripción es de 10 archivos .zip para usuarios de una suscripción gratuita (F0) y de 500 para usuarios de la suscripción estándar (S0).

Acción requerida

Para poder migrar a una voz neuronal personalizada, se debe aceptar la aplicación. El acceso al servicio de voz neuronal personalizada está sujeto a la exclusiva discreción de Microsoft de acuerdo con sus criterios de idoneidad. Debe confirmar el uso de la voz neuronal personalizada en alineación con nuestros principios de IA responsable y el código de conducta.

Sugerencia

Incluso sin una cuenta de Azure, puede escuchar ejemplos de voz en Speech Studio y determinar la voz adecuada para sus necesidades empresariales.

Obtenga más información sobre nuestra directiva sobre la limitación de acceso y, a continuación, haga una solicitud aquí.
Una vez que se apruebe la aplicación, se le proporcionará acceso a la característica de entrenamiento "neuronal". Asegúrese de iniciar sesión en Speech Studio con la misma suscripción de Azure que facilita en la aplicación.
Para poder entrenar e implementar un modelo de voz personalizado, debe crear un perfil de actor de voz. El perfil requiere un archivo de audio grabado por el actor de voz en el que consienta el uso de sus datos de voz para entrenar un modelo de voz personalizado.
Si ha creado un punto de conexión con un modelo nuevo, actualice el código de las aplicaciones.

Detalles de voz estándar (en desuso)

Lea las secciones siguientes para obtener más información sobre la voz personalizada.

Compatibilidad con idiomas

La voz personalizada admite los siguientes idiomas (configuraciones regionales).

Idioma	Configuración regional
Chino (mandarín, simplificado)	`zh-CN`
Chino (mandarín, simplificado), inglés bilingüe	`zh-CN` bilingüe
Inglés (India)	`en-IN`
Inglés (Reino Unido)	`en-GB`
Spanish (Traditional Sort) - Spain	`en-US`
Francés (Francia)	`fr-FR`
Alemán (Alemania)	`de-DE`
Italiano (Italia)	`it-IT`
Portugués (Brasil)	`pt-BR`
Español (México)	`es-MX`

Compatibilidad con regiones

Si ha creado una fuente de voz personalizada, use el punto de conexión que ha creado. También puede usar los puntos de conexión de esta sección, si reemplaza {deploymentId} por el identificador de implementación para el modelo de voz.

Region	Punto de conexión
Este de Australia	`https://australiaeast.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Sur de Brasil	`https://brazilsouth.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Centro de Canadá	`https://canadacentral.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Centro de EE. UU.	`https://centralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Este de Asia	`https://eastasia.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Este de EE. UU.	`https://eastus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Este de EE. UU. 2	`https://eastus2.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Centro de Francia	`https://francecentral.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
India central	`https://centralindia.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Japón Oriental	`https://japaneast.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Japón Occidental	`https://japanwest.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Centro de Corea del Sur	`https://koreacentral.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Centro-Norte de EE. UU	`https://northcentralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Norte de Europa	`https://northeurope.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Centro-sur de EE. UU.	`https://southcentralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Sudeste de Asia	`https://southeastasia.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Sur de Reino Unido 2	`https://uksouth.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Oeste de Europa	`https://westeurope.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Centro-Oeste de EE. UU.	`https://westcentralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Oeste de EE. UU.	`https://westus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Oeste de EE. UU. 2	`https://westus2.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`

Pasos siguientes

Probar la voz neuronal personalizada

Compartir a través de