Entità
nome_entità
paese (opt)
industria (opt)
lEI (opt)
1 - Recupero delle entità candidate
Cerca nel database delle entità CB i probabili candidati
2 - Ingegneria delle caratteristiche
Misura la somiglianza dei nomi e l’allineamento dei metadati per ogni candidato
3 - Punteggio ML
Attribuisce un punteggio a ciascun candidato come probabilità di corrispondenza
Risultato Top
CBId
CBEntityName
fiducia
rango
Conduttura
Recupero delle entità candidate
Il CB Entity Database supporta la ricerca testuale approssimativa, restituendo una rosa di candidati plausibili. Il recupero utilizza Classifica BM25 - e normalizza il testo in ingresso per gestire punteggiatura, accenti, suffissi legali e varianti di nomi comuni. Vengono recuperati circa 20 candidati per nome. In questa fase viene data priorità a richiamo rispetto alla precisione: la corrispondenza vera deve comparire nell’insieme dei candidati prima che il punteggio possa iniziare.Ingegneria delle funzioni
Per ogni candidato, un vettore di caratteristiche è costruito a partire da decine di singoli segnali, raggruppati in 4 categorie:| Categoria | Esempi |
|---|---|
| Similitudine delle stringhe | Jaccard sovrapposizione dei token, Levenshtein distanza, n-gramma somiglianza |
| Rilevanza della ricerca | BM25 punteggio e posizione in classifica dalla fase di recupero |
| Normalizzazione del testo | Confronto dopo aver eliminato la punteggiatura, gli accenti, i suffissi legali e le varianti del nome |
| Allineamento dei metadati | Paese, settore e identificatore (LEI) coerenza tra l’input e il candidato |
Punteggio dell’apprendimento automatico (ML)
Un classificatore di apprendimento automatico assegna una probabilità di corrispondenza a ciascun candidato in modo indipendente: I candidati sono classificati in base a e i primi risultati restituiti nella risposta.Formazione
Il modello è stato addestrato su un dataset interno di decine di migliaia di corrispondenze di entità etichettate, ciascuna delle quali è una coppia di corrispondenze vere o false. Questo è diverso dal database delle entità di CB, che contiene milioni di record corrispondenti a entità osservate da invio da parte della banca. Il modello viene riqualificato settimanalmente, man mano che crescono sia il database delle entità CB sia l’universo di corrispondenza.Test
Le prestazioni vengono valutate utilizzando convalida incrociata k-fold, assicurando che le metriche riflettano la generalizzazione sull’intero set di dati etichettati piuttosto che su una singola divisione treno/test. Poiché il modello viene riaddestrato su nuovi dati, le prestazioni vengono rivalutate a ogni ciclo. Le metriche di classificazione sono riportate nella tabella Precisione e copertura pagina.Punteggio di confidenza
Ad ogni candidato viene restituito un punteggio che riflette la certezza del modello che si tratta della corrispondenza corretta. Internamente, utilizziamo le seguenti fasce come guida, in base alle prestazioni misurate sui nostri dati di test:| Gamma | Segnale | Tasso di corrispondenza | Motivazione |
|---|---|---|---|
| Una partita forte | 94.4% | Fiducia sufficientemente alta da poter essere trattata come una corrispondenza senza revisione manuale | |
| Probabile abbinamento | ~65% | Il modello considera una corrispondenza plausibile ma non certa: i punteggi in questo intervallo meritano una revisione prima di essere accettati | |
| Debole | ~35% | Il candidato ha meno probabilità di essere la corrispondenza corretta - di solito emerge solo per confermare che non esiste alcuna corrispondenza |
limit > 1) con punteggi più bassi, la vera corrispondenza potrebbe comunque essere presente da qualche parte nell’insieme dei risultati: esaminare collettivamente i candidati migliori migliora la possibilità di una risoluzione corretta anche quando nessun singolo punteggio è elevato.
Vedi Precisione e copertura per l’analisi completa del trade-off di soglia.
