Ensemble de données
Les performances sont mesurées sur un ensemble de noms d’entités retenus, c’est-à-dire des noms délibérément exclus de la formation pour que le modèle ne les ait jamais vus. Cela garantit que l’évaluation reflète la généralisation et non la mémorisation. Pour chaque nom, l’étape d’extraction renvoie ~25 candidats de la base de données CB. Les performances sont mesurées au niveau des paires de candidats - chaque combinaison nom-candidat est un exemple étiqueté.| Valeur | |
|---|---|
| Aide pour les noms d’entités | 1,544 |
| Paires de candidats étiquetés | 39,051 |
| Nombre moyen de candidats par entité | 25.3 |
| Paires de vraies paires | 1,544 |
| Paires non concordantes | 37,507 |
| Équilibre des classes | ~24 non-matchs par vrai match |
Matrice de confusion
Ce qu’il mesure: Les matrice de confusion évalue le modèle en tant que classificateur binaire au seuil . Les candidats qui dépassent le seuil sont considérés comme des correspondances ; tous les autres sont considérés comme des non-correspondances. Resultat:Vrai positif - 1 291
83,61% des correspondances réelles correctement identifiées
Faux positifs - 110
0,29% des non-concordances réelles incorrectement signalées
Faux négatif - 253
16,39% des correspondances réelles sont inférieures aux seuils - elles font l’objet d’un examen
True Negative - 37 397
99,71% des non-concordances réelles sont correctement rejetées
- Sur les 1 544 vraies correspondances de l’ensemble de test, 1 291 ont obtenu un score supérieur au seuil.
- Les 253 faux négatifs représentent les correspondances dont le score est inférieur au seuil de confiance de 0,6.
- En pratique, Credit Benchmark permet de constater que la véritable correspondance apparaît toujours dans l’ensemble des résultats, même lorsque la confiance dans la correspondance correcte est inférieure à 0,6.
- F1 est la moyenne harmonique du rappel et de la précision - elle pénalise le déséquilibre entre les deux, en récompensant les modèles qui obtiennent de bons résultats dans les deux cas.
- Une F1 de 87,7 % témoigne d’une bonne performance globale de classification au seuil de 0,60 - le modèle récupère la grande majorité des vraies correspondances tout en produisant peu de prédictions incorrectes.
Courbe ROC et rappel de précision
L’ensemble de données étant fortement déséquilibré (~24:1), la courbe Précision-Recall est le diagnostic le plus informatif L’AUC de ROC peut être faussement optimiste dans des contextes déséquilibrés.
Courbe ROC
Ce qu’il mesure: la façon dont le modèle sépare les correspondances des non-concordances pour tous les seuils possibles. Les Courbe ROC représente le taux de vrais positifs par rapport au taux de faux positifs lorsque le seuil passe de 1 à 0 :Courbe de précision et de rappel
Ce qu’il mesure: le degré de précision que le modèle conserve au fur et à mesure qu’il récupère des correspondances. Précision moyenne (AP) résume cela comme l’aire pondérée sous la courbe PR :- - rappel à l’étape du seuil
- - précision au niveau du seuil
Compromis précision-couverture
Ce qu’il mesure: Précision est la part des correspondances prédites qui sont effectivement correctes. La couverture est la part des noms d’entrée qui reçoivent une correspondance supérieure au seuil :- - nombre de noms ayant obtenu un score égal ou supérieur à
- - nombre total de noms d’entrée
- L’augmentation - moins de noms trouvés, plus de précision, moins de couverture
- Abaissement - plus de noms correspondent, moins de précision, plus de couverture


