Entità
entity_name
Paese (opt)
Settore (opt)
LEI (opt)
1 — Recupero dell’entità candidata
Cerca nel database delle entità CB i candidati probabili
2 — Ingegneria delle caratteristiche
Il punteggio viene calcolato misurando la somiglianza dei nomi e l’allineamento dei metadati per ciascun candidato.
3 — Punteggio ML
Assegna a ciascun candidato un punteggio interpretato come probabilità di corrispondenza.
Risultato principale
CBId
CBEntityName
fiducia
intervallo
Pipeline
Recupero delle entità candidate
Il database delle entità CB supporta la ricerca testuale approssimativa, restituendo un elenco ristretto di candidati plausibili. Il recupero utilizza l’Classifica BM25, che assegna un punteggio ai candidati in base alla frequenza dei termini e alla frequenza inversa dei documenti, e normalizza il testo di input per gestire punteggiatura, accenti, suffissi legali e varianti comuni dei nomi. In genere vengono restituiti circa 20 candidati per ogni nome. Questa fase dà priorità all’ricordo rispetto alla precisione e: la corrispondenza effettiva deve essere presente nell’insieme dei candidati prima che possa essere assegnato un punteggio.Ingegneria delle caratteristiche
Per ogni candidato viene restituito un vettore di caratteristiche. Il modello si basa su decine di segnali individuali, raggruppati in quattro categorie:| Categoria | Esempi |
|---|---|
| Somiglianza delle stringhe | Jaccard sovrapposizione dei token, Levenshtein distanza, n-gram somiglianza |
| Rilevanza della ricerca | BM25 punteggio e posizione in classifica dalla fase di recupero |
| Normalizzazione del testo | Confronto dopo la rimozione di punteggiatura, accenti, suffissi legali e varianti del nome. |
| Allineamento dei metadati | Coerenza tra input e candidato in termini di Paese, settore e identificativo (LEI). |
Punteggio ML
Un classificatore di apprendimento automatico assegna una probabilità di corrispondenza a ciascun candidato in modo indipendente: I candidati sono classificati in base a e i risultati principali restituiti nella risposta.Formazione
Il modello è stato addestrato su un set di dati interno composto da decine di migliaia di corrispondenze di entità etichettate — ciascuna delle quali è una coppia di corrispondenze vera o falsa. Ciò è distinto dal database delle entità CB stesso, che contiene milioni di record corrispondenti alle entità osservate su Invii bancari. Il modello viene riaddestrato settimanalmente man mano che sia il database delle entità CB che l’universo di risoluzione delle entità crescono.Test
Le prestazioni vengono valutate mediante [Validazione incrociata k-fold](https://en.wikipedia.org/wiki/Cross-validation_\(statistics\), validazione incrociata a più passi), garantendo che le metriche riflettano la generalizzazione sull’intero insieme di dati etichettati piuttosto che su una singola partizione addestramento/test. Man mano che il modello viene riaddestrato su nuovi dati, le prestazioni vengono rivalutate ad ogni ciclo. Le metriche di classificazione sono riportate nella pagina “Precisione e copertura”.Punteggio di affidabilità
Ogni candidato viene restituito con un punteggio che riflette la certezza del modello che si tratti della corrispondenza corretta. Internamente utilizziamo le seguenti fasce come linea guida, sulla base delle prestazioni misurate sui nostri dati di test:| Intervallo | Segnale | Tasso di corrispondenza | Motivazione |
|---|---|---|---|
| p > 0,6 | Corrispondenza forte | 94.4% | Livello di confidenza sufficientemente elevato da poter essere considerato una corrispondenza senza revisione manuale |
| p in [0.3, 0.6] | Corrispondenza probabile | ~65% | Il modello considera una corrispondenza plausibile ma non certa — i punteggi in questo intervallo richiedono una revisione prima dell’accettazione |
| p < 0,3 | Debole | ~35% | È meno probabile che il candidato rappresenti la corrispondenza corretta — tale valore viene restituito generalmente solo per confermare l’assenza di corrispondenze. |
limit > 1) con punteggi inferiori, l’entità corretta potrebbe comunque essere presente da qualche parte nell’insieme di risultati: esaminare collettivamente i candidati principali migliora la probabilità di una risoluzione corretta anche quando nessun punteggio singolo è elevato.
Si rinvia alla sezione “Risoluzione delle entità: Accuratezza e Copertura” per un’analisi completa del compromesso tra le soglie.
