Passer au contenu principal
Le pipeline de mise en correspondance résout les noms d’entités en texte libre en Credit Benchmark les identificateurs sont classés en trois étapes : la recherche de candidats, l’ingénierie des caractéristiques et la notation ML. Chaque entrée renvoie des correspondances classées avec un score de confiance compris entre 0 et 1.
Entité
nom_de_l’entité
pays (opt)
l’industrie (opt)
lEI (opt)
1 - Recherche d’entités candidates
Recherche de candidats probables dans la base de données des entités CB
2 - Ingénierie des fonctionnalités
Mesure la similarité des noms et l’alignement des métadonnées par candidat
3 - ML Scoring
Attribue une note à chaque candidat en fonction de la probabilité de correspondance
Résultat supérieur
CBId
CBEntityName
confiance
rang
Ce flux montre le processus de mise en correspondance de bout en bout, depuis les champs d’entrée de l’entité jusqu’aux résultats des candidats classés.

Pipeline

Recherche d’entités candidates

La base de données d’entités CB prend en charge la recherche textuelle approximative et renvoie une liste restreinte de candidats plausibles. La recherche utilise Classement BM25 - la notation des candidats en fonction de la fréquence des termes et de la fréquence inverse des documents - et la normalisation du texte d’entrée pour tenir compte de la ponctuation, des accents, des suffixes légaux et des variantes de noms communs. Environ 20 candidats sont récupérés par nom. Cette étape permet de donner la priorité le rappel par rapport à la précisionle résultat de l’évaluation est le suivant : la vraie correspondance doit apparaître dans l’ensemble des candidats avant que la notation ne puisse commencer.

Ingénierie des fonctionnalités

Pour chaque candidat, un vecteur de caractéristiques x\mathbf{x} est construit à partir de dizaines de signaux individuels, regroupés en 4 catégories :
CatégorieExemples
Similitude des chaînes de caractèresJaccard chevauchement des jetons, Levenshtein distance, n-gramme similitude
Pertinence de la rechercheBM25 le score et le rang obtenus lors de l’étape de recherche
Normalisation du texteComparaison après suppression de la ponctuation, des accents, des suffixes légaux et des variantes de noms
Alignement des métadonnéesPays, secteur et identifiant (LEI) cohérence entre l’entrée et le candidat

Apprentissage automatique (ML) notation

Un classificateur d’apprentissage automatique attribue une probabilité de correspondance à chaque candidat indépendamment : p^=P(matchx)\hat{p} = P(\text{match} \mid \mathbf{x}) Les candidats sont classés par p^\hat{p} et les premiers résultats renvoyés dans la réponse.

Formation

Le modèle a été entraîné sur un ensemble de données interne de dizaines de milliers de correspondances d’entités étiquetées - chaque paire de correspondances étant vraie ou fausse. Cette base de données est distincte de la base de données d’entités CB elle-même, qui contient des millions d’enregistrements correspondant à des entités observées à partir de la base de données d’entités CB soumissions bancaires. Le modèle est ré-entraîné chaque semaine au fur et à mesure que la base de données d’entités CB et l’univers de correspondance s’enrichissent.

Essais

La performance est évaluée à l’aide de validation croisée k-fold, ce qui garantit que les mesures reflètent la généralisation sur l’ensemble des données étiquetées plutôt que sur une seule division formation/test. Le modèle étant réentraîné sur de nouvelles données, les performances sont réévaluées à chaque cycle. Les mesures de classification sont reportées sur la page Précision et couverture page.

Score de confiance

Chaque candidat reçoit un score p^[0,1]\hat{p} \in [0, 1] reflétant la certitude du modèle qu’il s’agit de la bonne correspondance. En interne, nous utilisons les fourchettes suivantes à titre indicatif, sur la base des performances mesurées à partir de nos données de test :
GammeSignalTaux de correspondanceRaison d’être
p^0.60\hat{p} \geq 0.60Un match fort94.4%Le niveau de confiance est suffisamment élevé pour que l’on puisse considérer qu’il s’agit d’une correspondance sans examen manuel
0.30p^<0.600.30 \leq \hat{p} < 0.60Correspondance probable~65%Le modèle considère qu’une correspondance est plausible mais pas certaine - les scores situés dans cette fourchette doivent être examinés avant d’être acceptés
p^<0.30\hat{p} < 0.30Faible~35%Le candidat a moins de chances d’être la bonne personne - il ne fait généralement surface que pour confirmer qu’il n’y a pas de correspondance
Ces chiffres reflètent les taux d’adéquation par candidat. Lorsque plusieurs candidats sont renvoyés (limit > 1) à des scores inférieurs, la vraie correspondance peut encore être présente quelque part dans l’ensemble des résultats - l’examen collectif des meilleurs candidats améliore les chances d’une résolution correcte, même si aucun score n’est élevé. Voir Précision et couverture pour une analyse complète du compromis entre les seuils.