Les évaluations automatiques sont indépendantes de la langue. Si elles peuvent fournir des mesures utiles sur la qualité du langage, elles ne disent rien sur les contenus : c’est pourquoi des évaluations basées sur des jugements humains sont complémentaires aux évaluations métriques automatiques.

En génération automatique en langue naturelle (GAT), plusieurs métriques présentent la difficulté de disposer d’un texte source (rédigé par un humain) et d’un texte cible (rédigé par un logiciel). Ce qui n'est pas le cas en traduction automatique, par exemple. Les métriques BLEU, ROUGE, METEOR, NIST et WER permettent d’attribuer un score en fonction de systèmes de mesure de parties de mots (N-grammes) et de leur fréquence, à partir d'une comparaison entre un texte source et un texte cible.

Testez les métriques automatiques

BLEU (Bilingual Evaluation Understudy) accorde un poids égal à tous les N-grammes. 1 est le score atteint lorsque les N-grammes entre texte source et texte cible correspondent. Cette métrique, élaborée par IBM, est couramment utilisée en traduction automatique.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) accorde du poids à la proportion la plus élevée de N-grammes. Il existe plusieurs métriques ROUGE. La plus commune est ROUGEN, qui calcule la proportion la plus élevée de N-grammes d’une longueur N dans un texte de référence et qui sont rencontrés dans un texte généré. Les variantes de ROUGE correspondent à des variantes de la méthode de calcul (ROUGE-S, ROUGE-L, ROUGE-W,ROUGE-2 et ROUGEU). Le score ROUGE est surtout utilisé dans le cadre de la génération de résumés automatiques de textes.
NIST (National Institute of Stetards et Technology) l’évaluation métrique NIST est une adaptation de BLEU, mais où BLEU donne un poids égal à tous les n-grammes, NIST donne plus d’importance aux N-grammes les moins fréquents. NIST corrèlerait le mieux avec les jugements humains.
METEOR (Metric for Evaluation of Translation with Explicit Ordering) accorde un poids égal à tous les N-grammes et intègre dans la formule de calcul un taux rappel (fréquence) et un taux de précision (pertinence). Cette métrique est basée sur le principe de correspondances explicites (mot à mot entre le texte source et le texte cible, qu’il s’agisse du mot exact ou d’une variante morphologique de ce mot).
WER (Word Error Rate) formule de calcul basée sur la correspondance explicite, mot exact ou variante morphologique. Cette métrique est d'avantage utilisée dans le domaine de la reconnaissance vocale.

Références

Scores de lisibilité et distance d'édition