Vai al contenuto principale

Set di dati

Le prestazioni vengono misurate su un insieme di nomi di entità non utilizzati - nomi deliberatamente esclusi dall’addestramento, in modo che il modello non li abbia mai visti. In questo modo la valutazione riflette la generalizzazione e non la memorizzazione. Per ogni nome, la fase di recupero restituisce ~25 candidati dal database CB. Le prestazioni sono misurate a livello di coppia di candidati - ogni combinazione nome-candidato è un esempio etichettato.
Valore
Nomi di entità in uscita1,544
Coppie candidate etichettate39,051
Candidati medi per entità25.3
Coppie vere e proprie1,544
Coppie non corrispondenti37,507
Equilibrio di classe~24 non corrispondenze per ogni vera corrispondenza
Poiché solo un candidato per nome è corretto, il set di dati è fortemente sbilanciato, rispecchiando la distribuzione del mondo reale che il modello incontra in produzione. Le prestazioni vengono rivalutate a ogni ciclo di riqualificazione settimanale.

Matrice di confusione

Cosa misura: Il matrice di confusione valuta il modello come classificatore binario alla soglia p^0.60\hat{p} \geq 0.60. I candidati al di sopra della soglia sono previsti come corrispondenti; tutti gli altri come non corrispondenti. Risultato:

Vero positivo - 1.291

83,61% di corrispondenze effettive identificate correttamente

Falso positivo - 110

0,29% di non corrispondenze effettive segnalate erroneamente

Falso negativo - 253

16,39% di corrispondenze effettive al di sotto della soglia - segnalate per la revisione

Vero negativo - 37.397

99,71% di non corrispondenze effettive correttamente scartate
Da questi conteggi si ricavano due metriche: **Ricordo: quale frazione di corrispondenze vere ha identificato correttamente il modello?
  • Delle 1.544 corrispondenze vere del set di test, 1.291 hanno ottenuto un punteggio superiore alla soglia. Recall=TpTp+Fn=1,2911,291+253=83.6%\text{Recall} = \frac{T_p}{T_p + F_n} = \frac{1{,}291}{1{,}291 + 253} = 83.6\%
  • I 253 falsi negativi rappresentano le corrispondenze che hanno ottenuto un punteggio inferiore alla soglia di confidenza di 0,6.
  • In pratica, Credit Benchmark trova che la corrispondenza vera viene comunque visualizzata nell’insieme dei risultati, anche quando la confidenza per la corrispondenza corretta è inferiore a 0,6.
**Punteggio 1: qual è la performance combinata del modello in termini di richiamo e precisione?
  • F1 è la media armonica di Richiamo e Precisione: penalizza lo squilibrio tra i due elementi, premiando i modelli che ottengono buoni risultati in entrambi. F1=2Tp2Tp+Fp+Fn=2×1,2912×1,291+110+253=87.7%F_1 = \frac{2T_p}{2T_p + F_p + F_n} = \frac{2 \times 1{,}291}{2 \times 1{,}291 + 110 + 253} = 87.7\%
  • Una F1 dell’87,7% riflette una forte prestazione di classificazione complessiva alla soglia dello 0,60: il modello recupera la grande maggioranza delle corrispondenze vere e produce poche previsioni errate.

Curva ROC e precisione-richiamo

Poiché il dataset è fortemente sbilanciato (~24:1), la curva Precision-Recall è la diagnostica più informativa La ROC AUC può essere fuorviante e ottimistica in contesti squilibrati.
ROC and Precision-Recall curves

Curva ROC

Cosa misura: la capacità del modello di separare le corrispondenze dalle non corrispondenze in tutte le soglie possibili. Il Curva ROC traccia la percentuale di veri positivi rispetto a quella di falsi positivi, man mano che la soglia passa da 1 a 0:
  • TPR=TpTp+Fn,FPR=FpFp+Tn\text{TPR} = \frac{T_p}{T_p + F_n}, \qquad \text{FPR} = \frac{F_p}{F_p + T_n}
L’area sotto la curva (AUC) riassume le prestazioni discriminatorie - 1,0 è perfetto, 0,5 non è meglio di un caso. Risultato: AUC = 0,989 - separazione quasi perfetta tra le corrispondenze vere e le non corrispondenze.

Curva precisione-richiamo

Cosa misura: la precisione che il modello mantiene quando recupera più corrispondenze. Precisione media (AP) riassume questo dato come area ponderata sotto la curva PR:
  • Average Precision=n(RnRn1)Pn\text{Average Precision} = \sum_{n} (R_n - R_{n-1}) \cdot P_n
dove:
  • RnR_n - richiamo al passo di soglia nn
  • PnP_n - precisione al passo di soglia nn
L’AP è più significativo dell’AUC quando gli esempi positivi sono rari - AP = 1,0 è perfetto. Risultato: AP = 0,936 - una forte precisione mantenuta per la maggior parte dell’intervallo di richiamo.

Trade-off precisione-copertura

Cosa misura: Precisione è la percentuale di corrispondenze previste che sono effettivamente corrette. La copertura è la percentuale di nomi in ingresso che ricevono una corrispondenza superiore alla soglia kk:
  • Precision(k)=TpTp+Fp,Coverage(k)=nkN\text{Precision}(k) = \frac{T_p}{T_p + F_p}, \qquad \text{Coverage}(k) = \frac{n_{\geq k}}{N}
dove:
  • nkn_{\geq k} - numero di nomi che hanno ottenuto un punteggio pari o superiore a kk
  • NN - numero totale di nomi in ingresso
Come soglia kk modifiche:
  • Rialzo kk - meno nomi abbinati, maggiore precisione, minore copertura
  • Abbassamento kk - più nomi abbinati, minore precisione, maggiore copertura
Un punto operativo è la coppia specifica (Copertura, Precisione) alla soglia scelta, ovvero il punto della curva in cui si decide di operare. Risultato:
Precision and coverage vs. confidence threshold
Nel punto di lavoro p^=0.60\hat{p} = 0.60la precisione è del 94,4% e la copertura del 66,7%. Due terzi dei nomi ricevono una corrispondenza ad alta sicurezza; il restante terzo scende sotto la soglia e richiede una revisione.