Passer au contenu principal

Ensemble de données

Les performances sont mesurées sur un ensemble de noms d’entités retenus, c’est-à-dire des noms délibérément exclus de la formation pour que le modèle ne les ait jamais vus. Cela garantit que l’évaluation reflète la généralisation et non la mémorisation. Pour chaque nom, l’étape d’extraction renvoie ~25 candidats de la base de données CB. Les performances sont mesurées au niveau des paires de candidats - chaque combinaison nom-candidat est un exemple étiqueté.
Valeur
Aide pour les noms d’entités1,544
Paires de candidats étiquetés39,051
Nombre moyen de candidats par entité25.3
Paires de vraies paires1,544
Paires non concordantes37,507
Équilibre des classes~24 non-matchs par vrai match
Étant donné qu’un seul candidat par nom est correct, l’ensemble de données est fortement déséquilibré, ce qui reflète la distribution réelle à laquelle le modèle est confronté en production. Les performances sont réévaluées à chaque cycle de recyclage hebdomadaire.

Matrice de confusion

Ce qu’il mesure: Les matrice de confusion évalue le modèle en tant que classificateur binaire au seuil p^0.60\hat{p} \geq 0.60. Les candidats qui dépassent le seuil sont considérés comme des correspondances ; tous les autres sont considérés comme des non-correspondances. Resultat:

Vrai positif - 1 291

83,61% des correspondances réelles correctement identifiées

Faux positifs - 110

0,29% des non-concordances réelles incorrectement signalées

Faux négatif - 253

16,39% des correspondances réelles sont inférieures aux seuils - elles font l’objet d’un examen

True Negative - 37 397

99,71% des non-concordances réelles sont correctement rejetées
Deux mesures sont dérivées de ces comptages : **Rappel : quelle fraction des vraies correspondances le modèle a-t-il correctement identifiée ?
  • Sur les 1 544 vraies correspondances de l’ensemble de test, 1 291 ont obtenu un score supérieur au seuil. Recall=TpTp+Fn=1,2911,291+253=83.6%\text{Recall} = \frac{T_p}{T_p + F_n} = \frac{1{,}291}{1{,}291 + 253} = 83.6\%
  • Les 253 faux négatifs représentent les correspondances dont le score est inférieur au seuil de confiance de 0,6.
  • En pratique, Credit Benchmark permet de constater que la véritable correspondance apparaît toujours dans l’ensemble des résultats, même lorsque la confiance dans la correspondance correcte est inférieure à 0,6.
**Score F1 : quelle est la performance combinée du modèle en termes de rappel et de précision ?
  • F1 est la moyenne harmonique du rappel et de la précision - elle pénalise le déséquilibre entre les deux, en récompensant les modèles qui obtiennent de bons résultats dans les deux cas. F1=2Tp2Tp+Fp+Fn=2×1,2912×1,291+110+253=87.7%F_1 = \frac{2T_p}{2T_p + F_p + F_n} = \frac{2 \times 1{,}291}{2 \times 1{,}291 + 110 + 253} = 87.7\%
  • Une F1 de 87,7 % témoigne d’une bonne performance globale de classification au seuil de 0,60 - le modèle récupère la grande majorité des vraies correspondances tout en produisant peu de prédictions incorrectes.

Courbe ROC et rappel de précision

L’ensemble de données étant fortement déséquilibré (~24:1), la courbe Précision-Recall est le diagnostic le plus informatif L’AUC de ROC peut être faussement optimiste dans des contextes déséquilibrés.
ROC and Precision-Recall curves

Courbe ROC

Ce qu’il mesure: la façon dont le modèle sépare les correspondances des non-concordances pour tous les seuils possibles. Les Courbe ROC représente le taux de vrais positifs par rapport au taux de faux positifs lorsque le seuil passe de 1 à 0 :
  • TPR=TpTp+Fn,FPR=FpFp+Tn\text{TPR} = \frac{T_p}{T_p + F_n}, \qquad \text{FPR} = \frac{F_p}{F_p + T_n}
L’aire sous la courbe (AUC) résume la performance discriminante - 1,0 est parfait, 0,5 n’est pas mieux qu’aléatoire. Résultat: AUC = 0,989 - séparation quasi parfaite entre les vraies correspondances et les non-concordances.

Courbe de précision et de rappel

Ce qu’il mesure: le degré de précision que le modèle conserve au fur et à mesure qu’il récupère des correspondances. Précision moyenne (AP) résume cela comme l’aire pondérée sous la courbe PR :
  • Average Precision=n(RnRn1)Pn\text{Average Precision} = \sum_{n} (R_n - R_{n-1}) \cdot P_n
où :
  • RnR_n - rappel à l’étape du seuil nn
  • PnP_n - précision au niveau du seuil nn
AP est plus significatif que AUC lorsque les exemples positifs sont rares - AP = 1,0 est parfait. Résultat: AP = 0,936 - forte précision maintenue sur la majeure partie de la plage de rappel.

Compromis précision-couverture

Ce qu’il mesure: Précision est la part des correspondances prédites qui sont effectivement correctes. La couverture est la part des noms d’entrée qui reçoivent une correspondance supérieure au seuil kk:
  • Precision(k)=TpTp+Fp,Coverage(k)=nkN\text{Precision}(k) = \frac{T_p}{T_p + F_p}, \qquad \text{Coverage}(k) = \frac{n_{\geq k}}{N}
où :
  • nkn_{\geq k} - nombre de noms ayant obtenu un score égal ou supérieur à kk
  • NN - nombre total de noms d’entrée
En tant que seuil kk changements :
  • L’augmentation kk - moins de noms trouvés, plus de précision, moins de couverture
  • Abaissement kk - plus de noms correspondent, moins de précision, plus de couverture
Un point de fonctionnement est la paire spécifique (couverture, précision) au seuil que vous avez choisi - le point de la courbe où vous décidez d’opérer. Resultat:
Precision and coverage vs. confidence threshold
Au point de fonctionnement p^=0.60\hat{p} = 0.60la précision est de 94,4 % et la couverture de 66,7 %. Deux tiers des noms reçoivent une correspondance très fiable ; le tiers restant se situe en dessous du seuil et nécessite un examen.