Entité
entity_name
pays (optionnel)
secteur (optionnel)
LEI (optionnel)
1 — Récupération des entités candidates
Recherche les candidats potentiels dans la base de données d’entités CB.
2 — Ingénierie des caractéristiques
La similarité des noms et l’alignement des métadonnées sont évalués pour chaque candidat.
3 — Notation ML
Note : chaque candidat est classé selon sa probabilité de correspondance.
Résultat principal
CBId
CBEntityName
confiance
classement
Pipeline
Récupération des entités candidates
La base de données d’entités CB prend en charge la recherche textuelle approximative et renvoie une liste restreinte de candidats plausibles. La recherche utilise l’Classement BM25 — qui note les candidats en fonction de la fréquence des termes et de la fréquence inverse des documents — et normalise le texte saisi afin de gérer la ponctuation, les accents, les suffixes légaux et les variantes courantes des noms. En moyenne, une vingtaine de candidats sont renvoyés par nom. Cette étape donne la priorité à l’Rappel par rapport à la précision : la correspondance réelle doit apparaître dans l’ensemble de candidats avant que la notation puisse commencer.Ingénierie des caractéristiques
Pour chaque candidat, un vecteur de caractéristiques est construit à partir de dizaines de signaux individuels, regroupés en quatre catégories :| Catégorie | Exemples |
|---|---|
| Similarité des chaînes de caractères | Jaccard Chevauchement de tokens, distance de Levenshtein, similarité de n-gram |
| Pertinence de la recherche | BM25 score et position dans le classement issus de la phase de recherche |
| Normalisation du texte | Comparaison après élimination de la ponctuation, des accents, des suffixes juridiques et des variantes de nom |
| Alignement des métadonnées | Cohérence entre les données saisies et les candidats en matière de pays, de secteur et d’identifiant (LEI). |
Notation ML
Un classificateur d’apprentissage automatique attribue une probabilité de correspondance à chaque candidat de manière indépendante : Les candidats sont classés par et les principaux résultats renvoyés dans la réponse.Formation
Le modèle a été entraîné sur un jeu de données interne comprenant des dizaines de milliers de correspondances d’entités étiquetées – chacune constituant une paire de correspondances vraie ou fausse. Ce jeu de données est distinct de la base de données d’entités CB elle-même, qui contient des millions d’enregistrements correspondant à des entités observées dans les soumissions des banques. Le modèle est réentraîné chaque semaine à mesure que la base de données d’entités CB et l’univers de résolution d’entités s’élargissent.Test
Les performances sont évaluées au moyen d’une validation par pliage (Validation croisée k-fold, afin que les métriques reflètent la capacité de généralisation sur l’ensemble des données étiquetées plutôt que sur un unique découpage apprentissage/test. À mesure que le modèle est réentraîné sur de nouvelles données, les performances sont réévaluées à chaque cycle. Les métriques de classification sont présentées sur la page « Précision et couverture ».Score de confiance
Chaque candidat est renvoyé avec un score reflétant la certitude du modèle quant à la justesse de la correspondance. En interne, nous utilisons les fourchettes suivantes à titre indicatif, sur la base des performances mesurées sur nos données de test :| Plage | Signal | Taux de notation | Justification |
|---|---|---|---|
| p > 0,6 | Correspondance forte | 94.4% | Confiance suffisante pour considérer qu’il s’agit d’une correspondance sans examen manuel |
| p dans [0.3, 0.6] | Correspondance probable | ~65 % | Le modèle estime qu’il s’agit d’une correspondance plausible mais non certaine ; les scores compris dans cette fourchette doivent être vérifiés avant d’être validés. |
| p < 0,3 | Faible | ~35 % | La probabilité de correspondance exacte est faible — l’affichage sert principalement à confirmer l’absence de correspondance. |
limit > 1) avec des scores plus faibles, l’entité réelle peut tout de même se trouver quelque part dans l’ensemble de résultats — l’examen collectif des meilleurs candidats améliore les chances d’une résolution correcte, même lorsqu’aucun score n’est particulièrement élevé.
Consultez « Résolution d’entités : Précision et couverture » pour une analyse complète du compromis entre seuils.
