Passer au contenu principal
Chaque entrée renvoie des correspondances classées avec un score de confiance compris entre 0 et 1.
Entité
entity_name
pays (optionnel)
secteur (optionnel)
LEI (optionnel)
1 — Récupération des entités candidates
Recherche les candidats potentiels dans la base de données d’entités CB.
2 — Ingénierie des caractéristiques
La similarité des noms et l’alignement des métadonnées sont évalués pour chaque candidat.
3 — Notation ML
Note : chaque candidat est classé selon sa probabilité de correspondance.
Résultat principal
CBId
CBEntityName
confiance
classement
Le schéma ci-dessous présente le flux de travail de résolution de bout en bout, depuis les champs d’entité d’entrée jusqu’aux résultats classés par ordre de pertinence.

Pipeline

Récupération des entités candidates

La base de données d’entités CB prend en charge la recherche textuelle approximative et renvoie une liste restreinte de candidats plausibles. La recherche utilise l’Classement BM25 — qui note les candidats en fonction de la fréquence des termes et de la fréquence inverse des documents — et normalise le texte saisi afin de gérer la ponctuation, les accents, les suffixes légaux et les variantes courantes des noms. En moyenne, une vingtaine de candidats sont renvoyés par nom. Cette étape donne la priorité à l’Rappel par rapport à la précision : la correspondance réelle doit apparaître dans l’ensemble de candidats avant que la notation puisse commencer.

Ingénierie des caractéristiques

Pour chaque candidat, un vecteur de caractéristiques x\mathbf{x} est construit à partir de dizaines de signaux individuels, regroupés en quatre catégories :
CatégorieExemples
Similarité des chaînes de caractèresJaccard Chevauchement de tokens, distance de Levenshtein, similarité de n-gram
Pertinence de la rechercheBM25 score et position dans le classement issus de la phase de recherche
Normalisation du texteComparaison après élimination de la ponctuation, des accents, des suffixes juridiques et des variantes de nom
Alignement des métadonnéesCohérence entre les données saisies et les candidats en matière de pays, de secteur et d’identifiant (LEI).

Notation ML

Un classificateur d’apprentissage automatique attribue une probabilité de correspondance à chaque candidat de manière indépendante : p^=P(matchx)\hat{p} = P(\text{match} \mid \mathbf{x}) Les candidats sont classés par p^\hat{p} et les principaux résultats renvoyés dans la réponse.

Formation

Le modèle a été entraîné sur un jeu de données interne comprenant des dizaines de milliers de correspondances d’entités étiquetées – chacune constituant une paire de correspondances vraie ou fausse. Ce jeu de données est distinct de la base de données d’entités CB elle-même, qui contient des millions d’enregistrements correspondant à des entités observées dans les soumissions des banques. Le modèle est réentraîné chaque semaine à mesure que la base de données d’entités CB et l’univers de résolution d’entités s’élargissent.

Test

Les performances sont évaluées au moyen d’une validation par pliage (Validation croisée k-fold, afin que les métriques reflètent la capacité de généralisation sur l’ensemble des données étiquetées plutôt que sur un unique découpage apprentissage/test. À mesure que le modèle est réentraîné sur de nouvelles données, les performances sont réévaluées à chaque cycle. Les métriques de classification sont présentées sur la page « Précision et couverture ».

Score de confiance

Chaque candidat est renvoyé avec un score p^[0,1]\hat{p} \in [0, 1] reflétant la certitude du modèle quant à la justesse de la correspondance. En interne, nous utilisons les fourchettes suivantes à titre indicatif, sur la base des performances mesurées sur nos données de test :
PlageSignalTaux de notationJustification
p > 0,6Correspondance forte94.4%Confiance suffisante pour considérer qu’il s’agit d’une correspondance sans examen manuel
p dans [0.3, 0.6]Correspondance probable~65 %Le modèle estime qu’il s’agit d’une correspondance plausible mais non certaine ; les scores compris dans cette fourchette doivent être vérifiés avant d’être validés.
p < 0,3Faible~35 %La probabilité de correspondance exacte est faible — l’affichage sert principalement à confirmer l’absence de correspondance.
Ces chiffres reflètent les taux de correspondance par candidat. Lorsque plusieurs candidats sont renvoyés (limit > 1) avec des scores plus faibles, l’entité réelle peut tout de même se trouver quelque part dans l’ensemble de résultats — l’examen collectif des meilleurs candidats améliore les chances d’une résolution correcte, même lorsqu’aucun score n’est particulièrement élevé. Consultez « Résolution d’entités : Précision et couverture » pour une analyse complète du compromis entre seuils.
Last modified on May 12, 2026