Datasett
Ytelsen måles på et sett med entitetsnavn som er holdt tilbake - navn som bevisst er utelatt fra opplæringen, slik at modellen aldri har sett dem. Dette sikrer at evalueringen gjenspeiler generalisering, ikke memorering. For hvert navn returnerer gjenfinningstrinnet ~25 kandidater fra CB-databasen. Ytelsen måles på kandidatparnivå - hver kombinasjon av navn og kandidat er ett merket eksempel.| Verdi | |
|---|---|
| Utlevert enhetsnavn | 1,544 |
| Merkede kandidatpar | 39,051 |
| Gjennomsnittlig antall kandidater per enhet | 25.3 |
| True-match-par | 1,544 |
| Ikke-matchende par | 37,507 |
| Klassebalanse | ~24 ikke-matcher per ekte match |
Forvirringsmatrise
Hva den måler: Den forvekslingsmatrise evaluerer modellen som en binær klassifiserer ved terskelverdien . Kandidater over terskelen predikeres som treff, alle andre som ikke-treff. Resultat:Sann positiv - 1 291
83,61 % av de faktiske treffene er korrekt identifisert
Falsk positiv - 110
0,29 % av de faktiske ikke-matchene er feilaktig flagget
Falsk negativ - 253
16,39 % av de faktiske treffene under terskelverdien - tatt opp til vurdering
Sann negativ - 37 397
99,71 % av de faktiske ikke-matchene ble korrekt avvist
- Av de 1544 sanne treffene i testsettet fikk 1291 treff over terskelverdien.
- De 253 falske negativene representerer treff som ble scoret under konfidensgrensen på 0,6.
- I praksis, Credit Benchmark finner at den sanne matchingen fremdeles dukker opp i resultatsettet - selv når konfidensgraden for den riktige matchingen er lavere enn 0,6.
- F1 er det harmoniske gjennomsnittet av Recall og Precision - det straffer ubalanse mellom de to, og belønner modeller som gjør det bra på begge.
- En F1 på 87,7 % gjenspeiler en sterk samlet klassifiseringsytelse ved terskelen på 0,60 - modellen gjenfinner det store flertallet av sanne treff, samtidig som den gir få feilaktige prediksjoner.
ROC-kurve og presisjon-tilbakekalling
Fordi datasettet er svært ubalansert (~24:1), er Precision-Recall-kurven den mest informative diagnostikken - den ROC AUC kan være misvisende optimistisk i ubalanserte omgivelser.
ROC-kurve
Hva den måler: hvor godt modellen skiller treff fra ikke-treff på tvers av alle mulige terskler. Den ROC-kurve plotter True Positive Rate mot False Positive Rate når terskelen sveiper fra 1 til 0:Precision-Recall Curve
Hva den måler: hvor mye presisjon modellen beholder etter hvert som den gjenoppretter flere treff. Gjennomsnittlig presisjon (AP) oppsummerer dette som det vektede arealet under PR-kurven:- - tilbakekalling ved terskeltrinn
- - presisjon ved terskeltrinn
Avveining mellom presisjon og dekning
Hva den måler: Presisjon er andelen av de predikerte treffene som faktisk er riktige. Dekningsgrad er andelen av inndatanavnene som får treff over terskelverdien :- - antall navn med poengsum på eller over
- - totalt antall inngangsnavn
- Høyning - færre navn matchet, høyere presisjon, lavere dekning
- Senking - flere navn matchet, lavere presisjon, høyere dekning


