Corrispondenza dei nomi e mappatura CBID

Ogni richiesta restituisce potenziali corrispondenze ordinate in base a un punteggio di confidenza compreso tra 0 e 1.

Entità

entity_name
Paese (opt)
Settore (opt)
LEI (opt)

1 — Recupero dell’entità candidata

Cerca nel database delle entità CB i candidati probabili

2 — Ingegneria delle caratteristiche

Il punteggio viene calcolato misurando la somiglianza dei nomi e l’allineamento dei metadati per ciascun candidato.

3 — Punteggio ML

Assegna a ciascun candidato un punteggio interpretato come probabilità di corrispondenza.

Risultato principale

CBId
CBEntityName
fiducia
intervallo

Questo flusso illustra il flusso di lavoro di risoluzione end-to-end, dai campi dell’entità di input ai risultati dei candidati classificati.

Pipeline

Recupero delle entità candidate

Il database delle entità CB supporta la ricerca testuale approssimativa, restituendo un elenco ristretto di candidati plausibili. Il recupero utilizza l’Classifica BM25, che assegna un punteggio ai candidati in base alla frequenza dei termini e alla frequenza inversa dei documenti, e normalizza il testo di input per gestire punteggiatura, accenti, suffissi legali e varianti comuni dei nomi. In genere vengono restituiti circa 20 candidati per ogni nome. Questa fase dà priorità all’ricordo rispetto alla precisione e: la corrispondenza effettiva deve essere presente nell’insieme dei candidati prima che possa essere assegnato un punteggio.

Ingegneria delle caratteristiche

Per ogni candidato viene restituito un vettore di caratteristiche.

\mathbf{x}

Il modello si basa su decine di segnali individuali, raggruppati in quattro categorie:

Categoria	Esempi
Somiglianza delle stringhe	Jaccard sovrapposizione dei token, Levenshtein distanza, n-gram somiglianza
Rilevanza della ricerca	BM25 punteggio e posizione in classifica dalla fase di recupero
Normalizzazione del testo	Confronto dopo la rimozione di punteggiatura, accenti, suffissi legali e varianti del nome.
Allineamento dei metadati	Coerenza tra input e candidato in termini di Paese, settore e identificativo (LEI).

Punteggio ML

Un classificatore di apprendimento automatico assegna una probabilità di corrispondenza a ciascun candidato in modo indipendente:

\hat{p} = P(\text{match} \mid \mathbf{x})

I candidati sono classificati in base a

\hat{p}

e i risultati principali restituiti nella risposta.

Formazione

Il modello è stato addestrato su un set di dati interno composto da decine di migliaia di corrispondenze di entità etichettate — ciascuna delle quali è una coppia di corrispondenze vera o falsa. Ciò è distinto dal database delle entità CB stesso, che contiene milioni di record corrispondenti alle entità osservate su Invii bancari. Il modello viene riaddestrato settimanalmente man mano che sia il database delle entità CB che l’universo di risoluzione delle entità crescono.

Test

Le prestazioni vengono valutate mediante [Validazione incrociata k-fold](https://en.wikipedia.org/wiki/Cross-validation_\(statistics\), validazione incrociata a più passi), garantendo che le metriche riflettano la generalizzazione sull’intero insieme di dati etichettati piuttosto che su una singola partizione addestramento/test. Man mano che il modello viene riaddestrato su nuovi dati, le prestazioni vengono rivalutate ad ogni ciclo. Le metriche di classificazione sono riportate nella pagina “Precisione e copertura”.

Punteggio di affidabilità

Ogni candidato viene restituito con un punteggio

\hat{p} \in [0, 1]

che riflette la certezza del modello che si tratti della corrispondenza corretta. Internamente utilizziamo le seguenti fasce come linea guida, sulla base delle prestazioni misurate sui nostri dati di test:

Intervallo	Segnale	Tasso di corrispondenza	Motivazione
p > 0,6	Corrispondenza forte	94.4%	Livello di confidenza sufficientemente elevato da poter essere considerato una corrispondenza senza revisione manuale
p in [0.3, 0.6]	Corrispondenza probabile	~65%	Il modello considera una corrispondenza plausibile ma non certa — i punteggi in questo intervallo richiedono una revisione prima dell’accettazione
p < 0,3	Debole	~35%	È meno probabile che il candidato rappresenti la corrispondenza corretta — tale valore viene restituito generalmente solo per confermare l’assenza di corrispondenze.

Tali cifre riflettono i tassi di corrispondenza per singolo candidato. Quando vengono restituiti più candidati (limit > 1) con punteggi inferiori, l’entità corretta potrebbe comunque essere presente da qualche parte nell’insieme di risultati: esaminare collettivamente i candidati principali migliora la probabilità di una risoluzione corretta anche quando nessun punteggio singolo è elevato. Si rinvia alla sezione “Risoluzione delle entità: Accuratezza e Copertura” per un’analisi completa del compromesso tra le soglie.

Panoramica

Punti finali

Modello di risoluzione delle entità

Analisi

Corrispondenza dei nomi e mappatura CBID

Pipeline

Recupero delle entità candidate

Ingegneria delle caratteristiche

Punteggio ML

Formazione

Test

Punteggio di affidabilità

​Pipeline

​Recupero delle entità candidate

​Ingegneria delle caratteristiche

​Punteggio ML

​Formazione

​Test

​Punteggio di affidabilità

Pipeline

Recupero delle entità candidate

Ingegneria delle caratteristiche

Punteggio ML

Formazione

Test

Punteggio di affidabilità