Vai al contenuto principale

Set di dati

Le prestazioni vengono valutate su un insieme di nomi di entità tenuti da parte, che sono stati deliberatamente esclusi dalla fase di addestramento affinché il modello non li abbia mai osservati. Tale procedura garantisce che la valutazione rifletta la capacità di generalizzazione del modello, e non una semplice memorizzazione. Per ciascun nome, la fase di recupero restituisce circa 25 candidati dal database Credit Benchmark. Le prestazioni vengono misurate a livello di coppia candidato-nome: ogni combinazione nome-candidato costituisce un esempio etichettato.
Valore
Nomi di entità esclusi1.544
Coppie di candidati etichettate39.051
Media delle candidature per entità25.3
Coppie di corrispondenza vera1.544
Coppie non corrispondenti37.507
Equilibrio delle classiSi osservano circa 24 non corrispondenze per ogni corrispondenza vera.
Poiché solo un candidato per nome è corretto, il set di dati risulta fortemente sbilanciato, riflettendo la distribuzione reale che il modello incontra in produzione. Le prestazioni vengono rivalutate ad ogni ciclo di riaddestramento settimanale.

Matrice di confusione

Cosa misura: L’Matrice di confusione e valuta il modello come un classificatore binario alla soglia p^0.60\hat{p} \geq 0.60I candidati al di sopra della soglia vengono considerati corrispondenze; tutti gli altri, non corrispondenze. Risultato:

Vero positivo — 1.291

83.61% delle corrispondenze effettive identificate correttamente

Falsi positivi: 110

0.29% di effettivi casi di mancata corrispondenza segnalati erroneamente.

Falsi negativi — 253

16.39% Le corrispondenze effettive al di sotto della soglia vengono segnalate per ulteriore revisione.

Vero negativo — 37.397

99.71% di effettivi non corrispondenti correttamente scartati
Da tali conteggi si ricavano due metriche: Ricordo: quale frazione delle corrispondenze vere è stata identificata correttamente dal modello?
  • Su 1.544 abbinamenti corretti presenti nel set di test, 1.291 hanno ottenuto un punteggio superiore alla soglia. Recall=TpTp+Fn=1,2911,291+253=83.6%\text{Recall} = \frac{T_p}{T_p + F_n} = \frac{1{,}291}{1{,}291 + 253} = 83.6\% I 253 falsi negativi rappresentano corrispondenze che hanno ottenuto un punteggio inferiore alla soglia di confidenza dell’0.6.
  • In pratica, Credit Benchmark osserva che la corrispondenza effettiva risulta comunque nel set di output, anche quando l’affidabilità della corrispondenza corretta è inferiore a 0,6.
Punteggio F1: qual è la performance combinata del modello in termini di richiamo e precisione?
  • F1 è la media armonica di Ricordo e Precisione, e penalizza lo squilibrio tra le due metriche, premiando i modelli che ottengono buoni risultati su entrambi. F1=2Tp2Tp+Fp+Fn=2×1,2912×1,291+110+253=87.7%F_1 = \frac{2T_p}{2T_p + F_p + F_n} = \frac{2 \times 1{,}291}{2 \times 1{,}291 + 110 + 253} = 87.7\% Un punteggio F1 pari a alla soglia attesta un’elevata capacità di classificazione: il modello individua la maggior parte delle corrispondenze vere limitando al contempo le previsioni errate.

Curva ROC e precisione-richiamo

Poiché il set di dati è fortemente sbilanciato (rapporto circa 24:1), la curva Precisione-Richiamo rappresenta l’indicatore più informativo — L’AUC della curva ROC può risultare ingannevolmente ottimistica in contesti sbilanciati..
ROC and Precision-Recall curves

Curva ROC

Cosa misura: l’efficacia con cui il modello separa le corrispondenze dai non corrispondenti per tutte le soglie possibili. Il grafico “Curva ROC” (tasso di veri positivi contro tasso di falsi positivi) rappresenta il tasso di veri positivi in funzione del tasso di falsi positivi mentre la soglia varia da 1 a 0:
  • TPR=TpTp+Fn,FPR=FpFp+Tn\text{TPR} = \frac{T_p}{T_p + F_n}, \qquad \text{FPR} = \frac{F_p}{F_p + T_n}
L’area sotto tale curva (AUC) sintetizza le capacità discriminanti del modello: un valore di 1.0e è ottimale, mentre un valore di 0.5e non è superiore a un risultato casuale. Risultato: AUC =0.989, indicativo di una separazione quasi perfetta tra corrispondenze vere e non corrispondenze.

Curva precisione-richiamo

Cosa misura: quanta precisione mantiene il modello man mano che recupera più corrispondenze. [Precisione media (AP)](https://en.wikipedia.org/wiki/Evaluation_measures_\(information_retrieval\) #Average_precision) riassume questo concetto come l’area ponderata sotto la curva PR:
  • Average Precision=n(RnRn1)Pn\text{Average Precision} = \sum_{n} (R_n - R_{n-1}) \cdot P_n
dove:
  • RnR_n — richiamo al livello di soglia nn
  • PnP_n — precisione al livello di soglia nn
L’AP è più significativo dell’AUC quando gli esempi positivi sono rari — l’AP = 1.0 indica una classificazione perfetta. Risultato: AP =0.936 — elevata precisione mantenuta nella maggior parte dell’intervallo di richiamo.

Compromesso tra precisione e copertura

Cosa misura: Precisione è la percentuale di corrispondenze previste che sono effettivamente corrette. La copertura è la percentuale di nomi inseriti che ricevono una corrispondenza superiore alla soglia. kk:
  • Precision(k)=TpTp+Fp,Coverage(k)=nkN\text{Precision}(k) = \frac{T_p}{T_p + F_p}, \qquad \text{Coverage}(k) = \frac{n_{\geq k}}{N}
dove:
  • nkn_{\geq k} — numero di nomi con punteggio pari o superiore a kk
  • NN — numero totale di nomi inseriti
A una soglia kk Modifiche:
  • Aumento kk — meno nomi corrispondenti, maggiore precisione, minore copertura
  • Abbassamento kk — più nomi corrispondenti, minore precisione, maggiore copertura
Un punto di funzionamento (Punto operativo) rappresenta la coppia specifica (Copertura, Precisione) alla soglia da voi scelta — ossia il punto della curva in cui decidete di operare. Risultato:
Precision and coverage vs. confidence threshold
Nel punto operativo p^=0.60\hat{p} = 0.60A tale punto di funzionamento, la precisione è pari al e la copertura è pari al . Due terzi dei nomi ottengono una corrispondenza ad alta affidabilità; il restante terzo, collocandosi al di sotto della soglia, richiede un’ulteriore revisione.
Last modified on May 6, 2026