Hopp til hovedinnhold

Datasett

Ytelsen måles på et holdt-utenfor-sett med entitetsnavn — navn som bevisst er ekskludert fra opplæringen, slik at modellen aldri har sett dem. Dette sikrer at evalueringen gjenspeiler generalisering, ikke memorering. For hvert navn returnerer hentingsfasen ~25 kandidater fra CB-databasen. Ytelsen måles på kandidatpar-nivå — hver kombinasjon av navn og kandidat er ett merket eksempel.
Verdi
Utelatte enhetsnavn1 544
Merkede kandidatpar39 051
Gjennomsnittlig antall kandidater per enhet25.3
Par med ekte treff1 544
Par som ikke samsvarer37 507
Klassebalanse~24 ikke-treff per ekte treff
Fordi bare én kandidat per navn er riktig, er datasettet svært ubalansert — noe som gjenspeiler den virkelige fordelingen modellen møter i produksjon. Ytelsen evalueres på nytt med hver ukentlige omskolingssyklus.

Forvirringsmatrise

Hva det måler: forvirringsmatrise en evaluerer modellen som en binær klassifikator ved terskelen p^0.60\hat{p} \geq 0.60. Kandidater over terskelen forutsies som treff; alle andre som ikke-treff. Resultat:

Sann positiv — 1 291

83.61% av faktiske treff som er korrekt identifisert

Falsk positiv — 110

0.29% av faktiske ikke-treff som feilaktig er merket

Falsk negativ — 253

16.39% av faktiske treff under terskelen — fremhevet for gjennomgang

Sanne negative — 37 397

99.71% av faktiske ikke-treff som er korrekt avvist
To måleparametere er avledet fra disse tallene: Gjenkalling: hvilken andel av de sanne treffene identifiserte modellen riktig?
  • Av de 1 544 sanne treffene i testsettet scoret 1 291 over terskelen. Recall=TpTp+Fn=1,2911,291+253=83.6%\text{Recall} = \frac{T_p}{T_p + F_n} = \frac{1{,}291}{1{,}291 + 253} = 83.6\%
  • De 253 falske negativene representerer treff som ble vurdert til å ligge under tillitsgrensen 0.6.
  • I praksis finner Credit Benchmark at det sanne treffet fremdeles dukker opp i resultatsettet — selv når sikkerheten for det riktige treffet er lavere enn 0,6.
F1-score: hva er modellens samlede ytelse når det gjelder recall og presisjon?
  • F1 er det harmoniske gjennomsnittet av Recall og Precision — det straffer ubalanse mellom de to og belønner modeller som presterer godt på begge. F1=2Tp2Tp+Fp+Fn=2×1,2912×1,291+110+253=87.7%F_1 = \frac{2T_p}{2T_p + F_p + F_n} = \frac{2 \times 1{,}291}{2 \times 1{,}291 + 110 + 253} = 87.7\%
  • En F1-verdi på 87.7% gjenspeiler sterk samlet klassifiseringsytelse ved terskelen 0.60 — modellen gjenfinner det store flertallet av sanne treff, samtidig som den produserer få feilaktige prediksjoner.

ROC-kurve og presisjon–gjenkalling

Fordi datasettet er svært ubalansert (~24:1), er presisjons–gjenfinningskurven den mest informative diagnosen — ROC AUC kan være misvisende optimistisk i ubalanserte innstillinger.
ROC and Precision-Recall curves

ROC-kurve

Hva det måler: hvor godt modellen skiller treff fra ikke-treff på tvers av alle mulige terskler. Diagrammet «ROC-kurve» viser sann positiv rate mot falsk positiv rate når terskelen går fra 1 til 0:
  • TPR=TpTp+Fn,FPR=FpFp+Tn\text{TPR} = \frac{T_p}{T_p + F_n}, \qquad \text{FPR} = \frac{F_p}{F_p + T_n}
Arealet under denne kurven (AUC) oppsummerer diskriminativ ytelse — 1.0 er perfekt, 0.5 er ikke bedre enn tilfeldig. Resultat: AUC =0.989 — nesten perfekt skille mellom ekte treff og ikke-treff.

Presisjon–gjenfinningskurve

Hva det måler: hvor mye presisjon modellen beholder når den gjenfinner flere treff. [Gjennomsnittlig presisjon (AP)](https://en.wikipedia.org/wiki/Evaluation_measures_\(information_retrieval\) #Average_precision) oppsummerer dette som det vektede arealet under PR-kurven:
  • Average Precision=n(RnRn1)Pn\text{Average Precision} = \sum_{n} (R_n - R_{n-1}) \cdot P_n
hvor:
  • RnR_n — gjenfinning ved terskeltrinn nn
  • PnP_n — presisjon ved terskeltrinn nn
AP er mer meningsfullt enn AUC når positive eksempler er sjeldne — AP = 1.0 er perfekt. Resultat: AP =0.936 — sterk presisjon opprettholdes over det meste av gjenfinningsområdet.

Avveining mellom presisjon og dekning

Hva det måler: Presisjon er andelen av predikerte treff som faktisk er korrekte. Dekning er andelen av inndata-navnene som får et treff over terskelen kk:
  • Precision(k)=TpTp+Fp,Coverage(k)=nkN\text{Precision}(k) = \frac{T_p}{T_p + F_p}, \qquad \text{Coverage}(k) = \frac{n_{\geq k}}{N}
hvor:
  • nkn_{\geq k} — antall navn som scorer på eller over kk
  • NN — totalt antall innlagte navn
Som terskel kk endringer:
  • Økning kk — færre navn som samsvarer, høyere presisjon, lavere dekning
  • Senking kk — flere navn som samsvarer, lavere presisjon, høyere dekning
Et operasjonspunkt (driftspunkt) er det spesifikke (dekning, presisjon) paret ved den valgte terskelen — punktet på kurven der du bestemmer deg for å operere. Resultat:
Precision and coverage vs. confidence threshold
Ved driftspunktet p^=0.60\hat{p} = 0.60: presisjonen er 94.4% og dekningen er66.7%. To tredjedeler av navnene får et treff med høy sikkerhet; den gjenværende tredjedelen faller under terskelen og krever gjennomgang.
Last modified on May 6, 2026