Evaluation: le bruit et le silence

When one wants to evaluate the quality of a response to a query, it is customary to define the following indicators. Let RV be the relevant answers, RT the retrieved ones, Good their intersection. We define:

Precision = Good/RT

Recall = Good/RV

Both quantities are qualities, increasing from 0 to 1.

Complémentairement, on peut définir:

Bruit = (RT-Good)/RT = 1-P

Silence = (RV-Good)/RV = 1-R

Ces critères sont des défauts, augmentant de 0 à 1. Le zéro-défaut, c'est quand RT=RV=Good, il n'y a ni bruit ni silence.

Le silence est intolérable (de bonnes phrases sont rejetées comme incorrectes), mais il est difficile de le diminuer sans augmenter le bruit (les milliers d'interprétations pour une phrase correcte, les acceptances de phrases incorrectes).

Plus vous supprimez du silence plus vous créez de bruit. Ou sinon, vous collez trop au méta-corpus qui devient gigantesque et tout s'effondre.