Enhet
entity_name
land (opt)
bransje (opt)
LEI (opt)
1 — Henting av kandidatenheter
Søker i CB-enhetsdatabasen etter sannsynlige kandidater
2 — Feature Engineering
Måler navnelikhet og samsvar mellom metadata per kandidat
3 — ML-poengsum
Gir hver kandidat en poengsum som sannsynlighet for treff
Topp-resultat
CBId
CBEntityName
sikkerhet
rangering
Pipeline
Henting av kandidatenheter
CB Entity Database støtter omtrentlig tekstsøk og returnerer en kortliste med plausible kandidater. Søket bruker «BM25-rangering» – som rangerer kandidater etter termfrekvens og invers dokumentfrekvens – og normaliserer inndatateksten for å håndtere tegnsetting, aksenter, lovlige suffikser og vanlige navnevarianter. Omtrent 20 kandidater hentes per navn. Dette trinnet prioriterer «gjenfinningsgrad fremfor presisjon»: den riktige treffet må vises i kandidatsettet før poengberegningen kan begynne.Feature Engineering
For hver kandidat, en funksjonsvektor er bygget opp av dusinvis av individuelle signaler, gruppert i 4 kategorier:| Kategori | Eksempler |
|---|---|
| Strenglikhet | Jaccard token-overlapping, Levenshtein avstand, n-gram likhet |
| Søkerelevans | BM25 poengsum og rangering fra hentingsfasen |
| Tekstnormalisering | Sammenligning etter fjerning av tegnsetting, aksenter, juridiske suffikser og navnevarianter |
| Metadatajustering | Konsistens mellom land, sektor og identifikator (LEI) mellom inndata og kandidat |
ML-poengsum
En maskinlæringsklassifikator tildeler en samsvarssannsynlighet til hver kandidat uavhengig: Kandidatene rangeres etter og de øverste resultatene som returneres i svaret.Opplæring
Modellen er trent på et internt datasett med titusenvis av merkede entitetsmatcher — hver et par med enten riktig eller feil match. Dette skiller seg fra selve CB Entity Database, som inneholder millioner av poster som tilsvarer observerte enheter fra bankinnleveringer. Modellen trenes på nytt hver uke etter hvert som både CB Entity Database og universet for entitetsoppløsning vokser.Testing
Ytelsen evalueres ved hjelp av «k-fold kryssvalidering, noe som sikrer at målingene gjenspeiler generalisering over hele det merkede datasettet, snarere enn en enkelt oppdelings- og testdel. Ettersom modellen omskoleres på nye data, blir ytelsen revurdert hver syklus. Klassifiseringsmålinger rapporteres på siden «Accuracy & Coverage».Konfidensscore
Hver kandidat returneres med en poengsum som gjenspeiler modellens sikkerhet for at det er det riktige treffet. Internt bruker vi følgende bånd som veiledning, basert på ytelse målt på testdataene våre:| Område | Signal | Treffrate | Begrunnelse |
|---|---|---|---|
| p > 0,6 | Sterk treff | 94.4% | Høy nok sikkerhet til å behandle som et treff uten manuell gjennomgang |
| p i [0.3, 0.6] | Sannsynlig treff | ~65 % | Modellen anser et treff som sannsynlig, men ikke sikkert — poengsummer i dette området krever gjennomgang før de godtas |
| p < 0,3 | Svakt | ~35 % | Det er mindre sannsynlig at kandidaten er det riktige treffet — vises vanligvis bare for å bekrefte at det ikke finnes noe treff |
limit > 1) med lavere poengsum, kan den riktige enheten fortsatt være til stede et sted i resultatsettet — å gjennomgå de beste kandidatene samlet øker sjansen for en korrekt identifisering, selv når ingen enkelt poengsum er høy.
Se «Enhetsoppløsning: Accuracy & Coverage» for en fullstendig analyse av avveiningen mellom terskelverdier.
