¿Qué es una puntuación BLEU?
BLEU (Bilingual Evaluation Understudy o suplente de evaluación bilingüe) es una medida de las diferencias existentes entre una traducción automática y traducciones humanas de referencia de una misma frase de origen.
Proceso de puntuación
El algoritmo de BLEU compara expresiones consecutivas de la traducción automática con las expresiones consecutivas que encuentra en la traducción de referencia y cuenta el número de coincidencias en un modo ponderado. Estas coincidencias son independientes de la posición. Un mayor grado de coincidencia indica un mayor grado de similitud con la traducción de referencia y, por tanto, una puntuación más alta. La inteligibilidad y la corrección gramatical no se tienen en cuenta.
¿Cómo funciona BLEU?
El punto fuerte de BLEU es que se correlaciona bien con el juicio humano. BLEU calcula el promedio de errores de criterio en frases individuales de un corpus de prueba, en lugar de intentar elaborar el criterio humano exacto para cada frase.
Aquí puede encontrar un análisis más completo sobre la puntuación BLEU.
Los resultados de BLEU dependen en gran medida de la amplitud del dominio, la coherencia de los datos de prueba, aprendizaje y optimización, y la cantidad de datos disponible con fines de entrenamiento. Si los modelos se han entrenado en un dominio reducido, y los datos de entrenamiento son coherentes con los datos de prueba, es previsible una puntuación BLEU alta.
Nota:
Una comparación entre puntuaciones BLEU solo se puede justificar si los resultados de BLEU se comparan con el mismo conjunto de prueba, el mismo par de idiomas y el mismo motor de traducción automática. La puntuación BLEU de un conjunto de prueba diferente es obligatoriamente diferente.