Entité
nom_de_l’entité
pays (opt)
l’industrie (opt)
lEI (opt)
1 - Recherche d’entités candidates
Recherche de candidats probables dans la base de données des entités CB
2 - Ingénierie des fonctionnalités
Mesure la similarité des noms et l’alignement des métadonnées par candidat
3 - ML Scoring
Attribue une note à chaque candidat en fonction de la probabilité de correspondance
Résultat supérieur
CBId
CBEntityName
confiance
rang
Pipeline
Recherche d’entités candidates
La base de données d’entités CB prend en charge la recherche textuelle approximative et renvoie une liste restreinte de candidats plausibles. La recherche utilise Classement BM25 - la notation des candidats en fonction de la fréquence des termes et de la fréquence inverse des documents - et la normalisation du texte d’entrée pour tenir compte de la ponctuation, des accents, des suffixes légaux et des variantes de noms communs. Environ 20 candidats sont récupérés par nom. Cette étape permet de donner la priorité le rappel par rapport à la précisionle résultat de l’évaluation est le suivant : la vraie correspondance doit apparaître dans l’ensemble des candidats avant que la notation ne puisse commencer.Ingénierie des fonctionnalités
Pour chaque candidat, un vecteur de caractéristiques est construit à partir de dizaines de signaux individuels, regroupés en 4 catégories :| Catégorie | Exemples |
|---|---|
| Similitude des chaînes de caractères | Jaccard chevauchement des jetons, Levenshtein distance, n-gramme similitude |
| Pertinence de la recherche | BM25 le score et le rang obtenus lors de l’étape de recherche |
| Normalisation du texte | Comparaison après suppression de la ponctuation, des accents, des suffixes légaux et des variantes de noms |
| Alignement des métadonnées | Pays, secteur et identifiant (LEI) cohérence entre l’entrée et le candidat |
Apprentissage automatique (ML) notation
Un classificateur d’apprentissage automatique attribue une probabilité de correspondance à chaque candidat indépendamment : Les candidats sont classés par et les premiers résultats renvoyés dans la réponse.Formation
Le modèle a été entraîné sur un ensemble de données interne de dizaines de milliers de correspondances d’entités étiquetées - chaque paire de correspondances étant vraie ou fausse. Cette base de données est distincte de la base de données d’entités CB elle-même, qui contient des millions d’enregistrements correspondant à des entités observées à partir de la base de données d’entités CB soumissions bancaires. Le modèle est ré-entraîné chaque semaine au fur et à mesure que la base de données d’entités CB et l’univers de correspondance s’enrichissent.Essais
La performance est évaluée à l’aide de validation croisée k-fold, ce qui garantit que les mesures reflètent la généralisation sur l’ensemble des données étiquetées plutôt que sur une seule division formation/test. Le modèle étant réentraîné sur de nouvelles données, les performances sont réévaluées à chaque cycle. Les mesures de classification sont reportées sur la page Précision et couverture page.Score de confiance
Chaque candidat reçoit un score reflétant la certitude du modèle qu’il s’agit de la bonne correspondance. En interne, nous utilisons les fourchettes suivantes à titre indicatif, sur la base des performances mesurées à partir de nos données de test :| Gamme | Signal | Taux de correspondance | Raison d’être |
|---|---|---|---|
| Un match fort | 94.4% | Le niveau de confiance est suffisamment élevé pour que l’on puisse considérer qu’il s’agit d’une correspondance sans examen manuel | |
| Correspondance probable | ~65% | Le modèle considère qu’une correspondance est plausible mais pas certaine - les scores situés dans cette fourchette doivent être examinés avant d’être acceptés | |
| Faible | ~35% | Le candidat a moins de chances d’être la bonne personne - il ne fait généralement surface que pour confirmer qu’il n’y a pas de correspondance |
limit > 1) à des scores inférieurs, la vraie correspondance peut encore être présente quelque part dans l’ensemble des résultats - l’examen collectif des meilleurs candidats améliore les chances d’une résolution correcte, même si aucun score n’est élevé.
Voir Précision et couverture pour une analyse complète du compromis entre les seuils.
