Text Independent - Create Enrollment
Inscribir perfil
Agrega una inscripción al perfil existente.
La primera inscripción debe ser una frase de activación predefinida que se puede enumerar mediante la API /phrase/{locale}.
Si se alcanza el número mínimo de audios de inscripción solicitados, se crea una impresión de voz.
Cualquier inscripción adicional se usará para mejorar la impresión de voz.
Limitaciones:
La longitud mínima de entrada de audio por solicitud es de 1 segundo
La longitud máxima de entrada de audio por solicitud es de 120 segundos
Longitud mínima de voz efectiva mínima (excepto el silencio y otros fotogramas que no son de voz) para crear una huella de voz es de 20 segundos . Esta limitación se puede deshabilitar estableciendo "ignoreMinLength" en true.
La longitud máxima de entrada de audio total permitida para crear una huella de voz es de 300 segundos.
La relación mínima de señal a ruido de audio (SNR) es 2dB
POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}
Parámetros de identificador URI
Nombre | En | Requerido | Tipo | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
Puntos de conexión de Cognitive Services admitidos (protocolo y nombre de host, por ejemplo: https://westus.api.cognitive.microsoft.com). |
profile
|
path | True |
string uuid |
Identificador único del identificador de perfil (GUID). |
api-version
|
query | True |
string |
Especifica la versión de la operación que se utiliza para esta solicitud. |
ignore
|
query |
boolean |
Si es true, se creará una impresión de voz inmediatamente para este perfil, independientemente de la cantidad de voz proporcionada o almacenada. El valor predeterminado es False. |
Encabezado de la solicitud
Media Types: "audio/wav; codecs=audio/pcm"
Nombre | Requerido | Tipo | Description |
---|---|---|---|
Ocp-Apim-Subscription-Key | True |
string |
Cuerpo de la solicitud
Media Types: "audio/wav; codecs=audio/pcm"
Nombre | Tipo | Description |
---|---|---|
audioData |
object |
Archivo de audio binario. Los formatos admitidos son audio/wav; codecs=audio/pcm. Admite audio de hasta 5 MB. |
Respuestas
Nombre | Tipo | Description |
---|---|---|
201 Created |
Creado |
|
Other Status Codes |
Error Encabezados x-ms-error-code: string |
Seguridad
Ocp-Apim-Subscription-Key
Tipo:
apiKey
En:
header
Ejemplos
Successful Query
Solicitud de ejemplo
POST https://westus.api.cognitive.microsoft.com/speaker-recognition/verification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05
"{binary file date}"
Respuesta de muestra
Content-Type: application/json
{
"profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
"enrollmentStatus": "Enrolling",
"enrollmentsCount": 1,
"enrollmentsLengthInSec": 1.83,
"enrollmentsSpeechLengthInSec": 1.35,
"remainingEnrollmentsSpeechLengthInSec": 18.65,
"audioLengthInSec": 1.83,
"audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
"error": {
"code": "Error Code",
"message": "Erro Messae"
}
}
Definiciones
Nombre | Description |
---|---|
Error | |
Speaker |
Mensaje de error del hablante |
Ti |
Text-Independent información de inscripción del perfil de Speaker |
Training |
Estado que representa el estado actual del perfil. Valores disponibles:
|
Error
Nombre | Tipo | Description |
---|---|---|
code |
string |
|
message |
string |
SpeakerErrorInfo
Mensaje de error del hablante
Nombre | Tipo | Description |
---|---|---|
error |
TiEnrollmentInfo
Text-Independent información de inscripción del perfil de Speaker
Nombre | Tipo | Description |
---|---|---|
audioLengthInSec |
number |
Esta longitud de audio de inscripción en segundos. |
audioSpeechLengthInSec |
number |
Esta inscripción de voz pura de audio (que es la cantidad de audio después de quitar el silencio y los segmentos que no son de voz) dura en segundos. |
enrollmentStatus |
Estado que representa el estado actual del perfil. Valores disponibles:
|
|
enrollmentsCount |
integer |
Número de audios de inscripción aceptados para este perfil. |
enrollmentsLengthInSec |
number |
Longitud total de los audios de inscripción aceptados para este perfil en segundos. |
enrollmentsSpeechLengthInSec |
number |
Suma de voz pura (que es la cantidad de audio después de quitar el silencio y los segmentos que no son de voz) en todas las inscripciones de perfil en segundos. |
profileId |
string |
Identificador único del identificador de perfil (GUID). |
remainingEnrollmentsSpeechLengthInSec |
number |
Cantidad de voz pura (que es la cantidad de audio después de quitar el silencio y los segmentos que no son de voz) necesarios para completar la inscripción de perfiles en segundos. |
TrainingStatusType
Estado que representa el estado actual del perfil. Valores disponibles:
- Inscripción: el perfil no tiene impresión de voz y no está listo para las solicitudes de reconocimiento.
- Entrenamiento: se está creando la impresión de voz del perfil y no se puede usar para el reconocimiento en este momento.
- Inscrito: el perfil tiene una impresión de voz y está lista para las solicitudes de reconocimiento.
Nombre | Tipo | Description |
---|---|---|
Enrolled |
string |
|
Enrolling |
string |
|
Training |
string |