Set di dati
Le prestazioni vengono misurate su un insieme di nomi di entità non utilizzati - nomi deliberatamente esclusi dall’addestramento, in modo che il modello non li abbia mai visti. In questo modo la valutazione riflette la generalizzazione e non la memorizzazione. Per ogni nome, la fase di recupero restituisce ~25 candidati dal database CB. Le prestazioni sono misurate a livello di coppia di candidati - ogni combinazione nome-candidato è un esempio etichettato.| Valore | |
|---|---|
| Nomi di entità in uscita | 1,544 |
| Coppie candidate etichettate | 39,051 |
| Candidati medi per entità | 25.3 |
| Coppie vere e proprie | 1,544 |
| Coppie non corrispondenti | 37,507 |
| Equilibrio di classe | ~24 non corrispondenze per ogni vera corrispondenza |
Matrice di confusione
Cosa misura: Il matrice di confusione valuta il modello come classificatore binario alla soglia . I candidati al di sopra della soglia sono previsti come corrispondenti; tutti gli altri come non corrispondenti. Risultato:Vero positivo - 1.291
83,61% di corrispondenze effettive identificate correttamente
Falso positivo - 110
0,29% di non corrispondenze effettive segnalate erroneamente
Falso negativo - 253
16,39% di corrispondenze effettive al di sotto della soglia - segnalate per la revisione
Vero negativo - 37.397
99,71% di non corrispondenze effettive correttamente scartate
- Delle 1.544 corrispondenze vere del set di test, 1.291 hanno ottenuto un punteggio superiore alla soglia.
- I 253 falsi negativi rappresentano le corrispondenze che hanno ottenuto un punteggio inferiore alla soglia di confidenza di 0,6.
- In pratica, Credit Benchmark trova che la corrispondenza vera viene comunque visualizzata nell’insieme dei risultati, anche quando la confidenza per la corrispondenza corretta è inferiore a 0,6.
- F1 è la media armonica di Richiamo e Precisione: penalizza lo squilibrio tra i due elementi, premiando i modelli che ottengono buoni risultati in entrambi.
- Una F1 dell’87,7% riflette una forte prestazione di classificazione complessiva alla soglia dello 0,60: il modello recupera la grande maggioranza delle corrispondenze vere e produce poche previsioni errate.
Curva ROC e precisione-richiamo
Poiché il dataset è fortemente sbilanciato (~24:1), la curva Precision-Recall è la diagnostica più informativa La ROC AUC può essere fuorviante e ottimistica in contesti squilibrati.
Curva ROC
Cosa misura: la capacità del modello di separare le corrispondenze dalle non corrispondenze in tutte le soglie possibili. Il Curva ROC traccia la percentuale di veri positivi rispetto a quella di falsi positivi, man mano che la soglia passa da 1 a 0:Curva precisione-richiamo
Cosa misura: la precisione che il modello mantiene quando recupera più corrispondenze. Precisione media (AP) riassume questo dato come area ponderata sotto la curva PR:- - richiamo al passo di soglia
- - precisione al passo di soglia
Trade-off precisione-copertura
Cosa misura: Precisione è la percentuale di corrispondenze previste che sono effettivamente corrette. La copertura è la percentuale di nomi in ingresso che ricevono una corrispondenza superiore alla soglia :- - numero di nomi che hanno ottenuto un punteggio pari o superiore a
- - numero totale di nomi in ingresso
- Rialzo - meno nomi abbinati, maggiore precisione, minore copertura
- Abbassamento - più nomi abbinati, minore precisione, maggiore copertura


