BLEU puanı nedir?

BLEU (İki Dilli Değerlendirme Yedeklisi), otomatik çeviri ile aynı kaynak cümlenin insan tarafından oluşturulan başvuru çevirileri arasındaki farkın ölçümüdür.

Puanlama işlemi

BLEU algoritması, otomatik çevirinin ardışık tümceciklerini başvuru çevirisinde bulduğu ardışık tümceciklerle karşılaştırır ve eşleşme sayısını ağırlıklı olarak sayar. Bu eşleşmeler konumdan bağımsızdır. Daha yüksek eşleşme derecesi, başvuru çevirisiyle daha yüksek benzerlik derecesini ve daha yüksek puanı gösterir. Anlaşılırlık ve dil bilgisi doğruluğu dikkate alınmaz.

BLEU nasıl çalışır?

BLEU puanının gücü, insan yargısıyla iyi bağıntılı olmasıdır. BLEU, her cümle için tam olarak insan yargısını tasarlamaya çalışmak yerine, bir test korpusu üzerinden tek tek cümle karar hatalarını ortalamaya alır.

BLEU puanlarının daha kapsamlı bir tartışması burada.

BLEU sonuçları kesinlikle etki alanınızın genişliğine bağlıdır; test, eğitim ve ayarlama verilerinin tutarlılığı; ve eğitim için kullanabileceğiniz veri miktarı. Modelleriniz dar bir etki alanı içinde eğitildiyse ve eğitim verileriniz test verilerinizle tutarlıysa, yüksek bir BLEU puanı bekleyebilirsiniz.

Not

BLEU puanları arasındaki karşılaştırma yalnızca BLEU sonuçları aynı Test kümesi, aynı dil çifti ve aynı MT altyapısı ile karşılaştırıldığında gerekçeli olur. Farklı bir test kümesinden alınan BLEU puanının farklı olması gerekir.

Sonraki adımlar