Passer au contenu principal

Ensemble de données

La performance est mesurée sur un ensemble de noms d’entités mis de côté — des noms délibérément exclus de l’apprentissage afin que le modèle ne les ait jamais vus. Cela garantit que l’évaluation reflète la généralisation, et non la mémorisation. Pour chaque nom, l’étape de recherche renvoie environ 25 candidats issus de la base de données CB. La performance est mesurée au niveau des paires candidat-nom — chaque combinaison nom-candidat constitue un exemple étiqueté.
Valeur
Noms d’entités mis de côté1 544
Paires de candidats étiquetées39 051
Nombre moyen de candidats par entité25.3
Paires de correspondances exactes1 544
Paires non correspondantes37 507
Équilibre des classesOn observe environ 24 non-correspondances pour chaque correspondance réelle.
Comme un seul candidat par nom est pertinent, l’ensemble de données est fortement déséquilibré, reflétant la distribution réelle que le modèle rencontre en production. Les performances sont réévaluées à chaque cycle hebdomadaire de réentraînement.

Matrice de confusion

Ce qu’il mesure : L’Matrice de confusion e évalue le modèle en tant que classificateur binaire au seuil p^0.60\hat{p} \geq 0.60Les entités dont le score dépasse ce seuil sont alors considérées comme des correspondances ; les autres sont classées comme non-correspondances. Résultat :

Vrais positifs — 1 291

83.61% des correspondances réelles correctement identifiées.

Faux positifs — 110

0.29% des non-correspondances réelles signalées à tort.

Faux négatifs : 253

16.39% Les correspondances réelles situées sous le seuil sont mises en évidence pour examen.

Vrais négatifs — 37 397

99.71% Les non-correspondances réelles sont correctement rejetées.
Deux indicateurs sont ainsi dérivés de ces comptages : Rappel : quelle fraction des correspondances réelles le modèle a-t-il correctement identifiée ?
  • Sur les 1 544 correspondances réelles de l’ensemble de test, 1 291 ont obtenu un score supérieur au seuil. Recall=TpTp+Fn=1,2911,291+253=83.6%\text{Recall} = \frac{T_p}{T_p + F_n} = \frac{1{,}291}{1{,}291 + 253} = 83.6\%
  • Les 253 faux négatifs correspondent à des correspondances dont le score était inférieur au seuil de confiance de l’0.6.
  • En pratique, Credit Benchmark constate que la correspondance réelle apparaît toujours dans l’ensemble de résultats — même lorsque le niveau de confiance pour la correspondance correcte est inférieur à 0,6.
Score F1 : quelle est la performance combinée du modèle en termes de rappel et de précision ?
  • Le F1, moyenne harmonique du rappel et de la précision, pénalise tout déséquilibre entre ces deux mesures et récompense les modèles qui obtiennent de bons résultats sur les deux plans. F1=2Tp2Tp+Fp+Fn=2×1,2912×1,291+110+253=87.7%F_1 = \frac{2T_p}{2T_p + F_p + F_n} = \frac{2 \times 1{,}291}{2 \times 1{,}291 + 110 + 253} = 87.7\%
  • Un score F1 de 87.7% atteste d’une performance globale de classification au seuil d’0.60, le modèle récupérant la grande majorité des correspondances réelles tout en produisant peu de prédictions erronées.

Courbe ROC et précision-rappel

Comme l’ensemble de données est fortement déséquilibré (~24:1), la courbe précision-rappel constitue le diagnostic le plus informatif — L’AUC de la courbe ROC peut s’avérer trompeusement optimiste dans des contextes déséquilibrés..
ROC and Precision-Recall curves

Courbe ROC

Ce qu’il mesure : la capacité du modèle à distinguer les correspondances des non-correspondances pour tous les seuils possibles. L’Courbe ROC e représente le taux de vrais positifs en fonction du taux de faux positifs à mesure que le seuil varie de 1 à 0 :
  • TPR=TpTp+Fn,FPR=FpFp+Tn\text{TPR} = \frac{T_p}{T_p + F_n}, \qquad \text{FPR} = \frac{F_p}{F_p + T_n}
L’aire sous cette courbe (AUC) résume la performance discriminante — une valeur de 1,0 est parfaite, une valeur de 0,5 n’est pas meilleure qu’un choix aléatoire. Résultat : AUC = 0,0.989, ce qui atteste d’une séparation quasi parfaite entre les correspondances réelles et les non-correspondances.

Courbe précision-rappel

Ce qu’il mesure : le niveau de précision que le modèle conserve à mesure qu’il identifie davantage de correspondances. [Précision moyenne (AP)](https://en.wikipedia.org/wiki/Evaluation_measures_\(information_retrieval\) #Average_precision) résume cela par l’aire pondérée sous la courbe PR :
  • Average Precision=n(RnRn1)Pn\text{Average Precision} = \sum_{n} (R_n - R_{n-1}) \cdot P_n
où :
  • RnR_n — rappel au seuil nn
  • PnP_n — précision au seuil nn
L’AP est plus pertinente que l’AUC lorsque les exemples positifs sont rares — une AP = 1.0 correspond à une performance parfaite. Résultat : AP =0.936 — une forte précision est maintenue sur la majeure partie de la plage de rappel.

Compromis entre précision et couverture

Ce qu’il mesure : Précision est la part de correspondances prédites qui s’avèrent exactes. La couverture représente la part de noms saisis obtenant une correspondance supérieure au seuil. kk:
  • Precision(k)=TpTp+Fp,Coverage(k)=nkN\text{Precision}(k) = \frac{T_p}{T_p + F_p}, \qquad \text{Coverage}(k) = \frac{n_{\geq k}}{N}
où :
  • nkn_{\geq k} — nombre de noms obtenant un score égal ou supérieur à kk
  • NN — nombre total de noms saisis
En tant que seuil kk Modifications :
  • Augmentation kk — moins de noms correspondants, précision plus élevée, couverture plus faible
  • Réduction kk — davantage de noms correspondants, précision plus faible, couverture plus élevée
Un « point de fonctionnement » (point de fonctionnement) correspond au couple spécifique (couverture, précision) associé au seuil que vous avez retenu — c’est-à-dire la position sur la courbe à partir de laquelle vous décidez d’intervenir. Résultat :
Precision and coverage vs. confidence threshold
Au point de fonctionnement p^=0.60\hat{p} = 0.60À ce point de fonctionnement, la précision s’établit à 94.4% et la couverture à66.7%. Les deux tiers des noms obtiennent ainsi une correspondance hautement fiable ; le tiers restant se situe en dessous du seuil et nécessite un examen manuel.
Last modified on May 6, 2026