Comment fonctionne l'appariement

Le pipeline de mise en correspondance résout les noms d’entités en texte libre en Credit Benchmark les identificateurs sont classés en trois étapes : la recherche de candidats, l’ingénierie des caractéristiques et la notation ML. Chaque entrée renvoie des correspondances classées avec un score de confiance compris entre 0 et 1.

Entité

nom_de_l’entité
pays (opt)
l’industrie (opt)
lEI (opt)

1 - Recherche d’entités candidates

Recherche de candidats probables dans la base de données des entités CB

2 - Ingénierie des fonctionnalités

Mesure la similarité des noms et l’alignement des métadonnées par candidat

3 - ML Scoring

Attribue une note à chaque candidat en fonction de la probabilité de correspondance

Résultat supérieur

CBId
CBEntityName
confiance
rang

Ce flux montre le processus de mise en correspondance de bout en bout, depuis les champs d’entrée de l’entité jusqu’aux résultats des candidats classés.

Pipeline

Recherche d’entités candidates

La base de données d’entités CB prend en charge la recherche textuelle approximative et renvoie une liste restreinte de candidats plausibles. La recherche utilise Classement BM25 - la notation des candidats en fonction de la fréquence des termes et de la fréquence inverse des documents - et la normalisation du texte d’entrée pour tenir compte de la ponctuation, des accents, des suffixes légaux et des variantes de noms communs. Environ 20 candidats sont récupérés par nom. Cette étape permet de donner la priorité le rappel par rapport à la précisionle résultat de l’évaluation est le suivant : la vraie correspondance doit apparaître dans l’ensemble des candidats avant que la notation ne puisse commencer.

Ingénierie des fonctionnalités

Pour chaque candidat, un vecteur de caractéristiques

\mathbf{x}

est construit à partir de dizaines de signaux individuels, regroupés en 4 catégories :

Catégorie	Exemples
Similitude des chaînes de caractères	Jaccard chevauchement des jetons, Levenshtein distance, n-gramme similitude
Pertinence de la recherche	BM25 le score et le rang obtenus lors de l’étape de recherche
Normalisation du texte	Comparaison après suppression de la ponctuation, des accents, des suffixes légaux et des variantes de noms
Alignement des métadonnées	Pays, secteur et identifiant (LEI) cohérence entre l’entrée et le candidat

Apprentissage automatique (ML) notation

Un classificateur d’apprentissage automatique attribue une probabilité de correspondance à chaque candidat indépendamment :

\hat{p} = P(\text{match} \mid \mathbf{x})

Les candidats sont classés par

\hat{p}

et les premiers résultats renvoyés dans la réponse.

Formation

Le modèle a été entraîné sur un ensemble de données interne de dizaines de milliers de correspondances d’entités étiquetées - chaque paire de correspondances étant vraie ou fausse. Cette base de données est distincte de la base de données d’entités CB elle-même, qui contient des millions d’enregistrements correspondant à des entités observées à partir de la base de données d’entités CB soumissions bancaires. Le modèle est ré-entraîné chaque semaine au fur et à mesure que la base de données d’entités CB et l’univers de correspondance s’enrichissent.

Essais

La performance est évaluée à l’aide de validation croisée k-fold, ce qui garantit que les mesures reflètent la généralisation sur l’ensemble des données étiquetées plutôt que sur une seule division formation/test. Le modèle étant réentraîné sur de nouvelles données, les performances sont réévaluées à chaque cycle. Les mesures de classification sont reportées sur la page Précision et couverture page.

Score de confiance

Chaque candidat reçoit un score

\hat{p} \in [0, 1]

reflétant la certitude du modèle qu’il s’agit de la bonne correspondance. En interne, nous utilisons les fourchettes suivantes à titre indicatif, sur la base des performances mesurées à partir de nos données de test :

Gamme	Signal	Taux de correspondance	Raison d’être
$\hat{p} \geq 0.60$	Un match fort	94.4%	Le niveau de confiance est suffisamment élevé pour que l’on puisse considérer qu’il s’agit d’une correspondance sans examen manuel
$0.30 \leq \hat{p} < 0.60$	Correspondance probable	~65%	Le modèle considère qu’une correspondance est plausible mais pas certaine - les scores situés dans cette fourchette doivent être examinés avant d’être acceptés
$\hat{p} < 0.30$	Faible	~35%	Le candidat a moins de chances d’être la bonne personne - il ne fait généralement surface que pour confirmer qu’il n’y a pas de correspondance

Ces chiffres reflètent les taux d’adéquation par candidat. Lorsque plusieurs candidats sont renvoyés (limit > 1) à des scores inférieurs, la vraie correspondance peut encore être présente quelque part dans l’ensemble des résultats - l’examen collectif des meilleurs candidats améliore les chances d’une résolution correcte, même si aucun score n’est élevé. Voir Précision et couverture pour une analyse complète du compromis entre les seuils.

Vue d'ensemble

Authentification

Correspondance

Analyse

Pipeline

Recherche d’entités candidates

Ingénierie des fonctionnalités

Apprentissage automatique (ML) notation

Formation

Essais

Score de confiance

Vue d'ensemble

Authentification

Correspondance

Analyse

​Pipeline

​Recherche d’entités candidates

​Ingénierie des fonctionnalités

​Apprentissage automatique (ML) notation

​Formation

​Essais

​Score de confiance

Pipeline

Recherche d’entités candidates

Ingénierie des fonctionnalités

Apprentissage automatique (ML) notation

Formation

Essais

Score de confiance