Precisione e copertura

Set di dati

Le prestazioni vengono misurate su un insieme di nomi di entità non utilizzati - nomi deliberatamente esclusi dall’addestramento, in modo che il modello non li abbia mai visti. In questo modo la valutazione riflette la generalizzazione e non la memorizzazione. Per ogni nome, la fase di recupero restituisce ~25 candidati dal database CB. Le prestazioni sono misurate a livello di coppia di candidati - ogni combinazione nome-candidato è un esempio etichettato.

	Valore
Nomi di entità in uscita	1,544
Coppie candidate etichettate	39,051
Candidati medi per entità	25.3
Coppie vere e proprie	1,544
Coppie non corrispondenti	37,507
Equilibrio di classe	~24 non corrispondenze per ogni vera corrispondenza

Poiché solo un candidato per nome è corretto, il set di dati è fortemente sbilanciato, rispecchiando la distribuzione del mondo reale che il modello incontra in produzione. Le prestazioni vengono rivalutate a ogni ciclo di riqualificazione settimanale.

Matrice di confusione

Cosa misura: Il matrice di confusione valuta il modello come classificatore binario alla soglia

\hat{p} \geq 0.60

. I candidati al di sopra della soglia sono previsti come corrispondenti; tutti gli altri come non corrispondenti. Risultato:

Vero positivo - 1.291

83,61% di corrispondenze effettive identificate correttamente

Falso positivo - 110

0,29% di non corrispondenze effettive segnalate erroneamente

Falso negativo - 253

16,39% di corrispondenze effettive al di sotto della soglia - segnalate per la revisione

Vero negativo - 37.397

99,71% di non corrispondenze effettive correttamente scartate

Da questi conteggi si ricavano due metriche: **Ricordo: quale frazione di corrispondenze vere ha identificato correttamente il modello?

Delle 1.544 corrispondenze vere del set di test, 1.291 hanno ottenuto un punteggio superiore alla soglia. $\text{Recall} = \frac{T_p}{T_p + F_n} = \frac{1{,}291}{1{,}291 + 253} = 83.6\%$
I 253 falsi negativi rappresentano le corrispondenze che hanno ottenuto un punteggio inferiore alla soglia di confidenza di 0,6.
In pratica, Credit Benchmark trova che la corrispondenza vera viene comunque visualizzata nell’insieme dei risultati, anche quando la confidenza per la corrispondenza corretta è inferiore a 0,6.

**Punteggio 1: qual è la performance combinata del modello in termini di richiamo e precisione?

F1 è la media armonica di Richiamo e Precisione: penalizza lo squilibrio tra i due elementi, premiando i modelli che ottengono buoni risultati in entrambi. $F_1 = \frac{2T_p}{2T_p + F_p + F_n} = \frac{2 \times 1{,}291}{2 \times 1{,}291 + 110 + 253} = 87.7\%$
Una F1 dell’87,7% riflette una forte prestazione di classificazione complessiva alla soglia dello 0,60: il modello recupera la grande maggioranza delle corrispondenze vere e produce poche previsioni errate.

Curva ROC e precisione-richiamo

Poiché il dataset è fortemente sbilanciato (~24:1), la curva Precision-Recall è la diagnostica più informativa La ROC AUC può essere fuorviante e ottimistica in contesti squilibrati.

Curva ROC

Cosa misura: la capacità del modello di separare le corrispondenze dalle non corrispondenze in tutte le soglie possibili. Il Curva ROC traccia la percentuale di veri positivi rispetto a quella di falsi positivi, man mano che la soglia passa da 1 a 0:

$\text{TPR} = \frac{T_p}{T_p + F_n}, \qquad \text{FPR} = \frac{F_p}{F_p + T_n}$

L’area sotto la curva (AUC) riassume le prestazioni discriminatorie - 1,0 è perfetto, 0,5 non è meglio di un caso. Risultato: AUC = 0,989 - separazione quasi perfetta tra le corrispondenze vere e le non corrispondenze.

Curva precisione-richiamo

Cosa misura: la precisione che il modello mantiene quando recupera più corrispondenze. Precisione media (AP) riassume questo dato come area ponderata sotto la curva PR:

$\text{Average Precision} = \sum_{n} (R_n - R_{n-1}) \cdot P_n$

dove:

$R_n$ - richiamo al passo di soglia $n$
$P_n$ - precisione al passo di soglia $n$

L’AP è più significativo dell’AUC quando gli esempi positivi sono rari - AP = 1,0 è perfetto. Risultato: AP = 0,936 - una forte precisione mantenuta per la maggior parte dell’intervallo di richiamo.

Trade-off precisione-copertura

Cosa misura: Precisione è la percentuale di corrispondenze previste che sono effettivamente corrette. La copertura è la percentuale di nomi in ingresso che ricevono una corrispondenza superiore alla soglia

k

$\text{Precision}(k) = \frac{T_p}{T_p + F_p}, \qquad \text{Coverage}(k) = \frac{n_{\geq k}}{N}$

dove:

$n_{\geq k}$ - numero di nomi che hanno ottenuto un punteggio pari o superiore a $k$
$N$ - numero totale di nomi in ingresso

Come soglia

k

modifiche:

Rialzo $k$ - meno nomi abbinati, maggiore precisione, minore copertura
Abbassamento $k$ - più nomi abbinati, minore precisione, maggiore copertura

Un punto operativo è la coppia specifica (Copertura, Precisione) alla soglia scelta, ovvero il punto della curva in cui si decide di operare. Risultato:

Precision and coverage vs. confidence threshold

Nel punto di lavoro

\hat{p} = 0.60

la precisione è del 94,4% e la copertura del 66,7%. Due terzi dei nomi ricevono una corrispondenza ad alta sicurezza; il restante terzo scende sotto la soglia e richiede una revisione.

Panoramica

Autenticazione

Abbinamento

Analisi

Set di dati

Matrice di confusione

Vero positivo - 1.291

Falso positivo - 110

Falso negativo - 253

Vero negativo - 37.397

Curva ROC e precisione-richiamo

Curva ROC

Curva precisione-richiamo

Trade-off precisione-copertura

Panoramica

Autenticazione

Abbinamento

Analisi

​Set di dati

​Matrice di confusione

Vero positivo - 1.291

Falso positivo - 110

Falso negativo - 253

Vero negativo - 37.397

​Curva ROC e precisione-richiamo

​Curva ROC

​Curva precisione-richiamo

​Trade-off precisione-copertura

Set di dati

Matrice di confusione

Curva ROC e precisione-richiamo

Curva ROC

Curva precisione-richiamo

Trade-off precisione-copertura