Hopp til hovedinnhold
Hver inndata returnerer rangerte treff med en konfidensscore mellom 0 og 1.
Enhet
entity_name
land (opt)
bransje (opt)
LEI (opt)
1 — Henting av kandidatenheter
Søker i CB-enhetsdatabasen etter sannsynlige kandidater
2 — Feature Engineering
Måler navnelikhet og samsvar mellom metadata per kandidat
3 — ML-poengsum
Gir hver kandidat en poengsum som sannsynlighet for treff
Topp-resultat
CBId
CBEntityName
sikkerhet
rangering
Denne flyten viser den komplette løsningsarbeidsflyten fra inndataentitetsfelt til rangerte kandidatresultater.

Pipeline

Henting av kandidatenheter

CB Entity Database støtter omtrentlig tekstsøk og returnerer en kortliste med plausible kandidater. Søket bruker «BM25-rangering» – som rangerer kandidater etter termfrekvens og invers dokumentfrekvens – og normaliserer inndatateksten for å håndtere tegnsetting, aksenter, lovlige suffikser og vanlige navnevarianter. Omtrent 20 kandidater hentes per navn. Dette trinnet prioriterer «gjenfinningsgrad fremfor presisjon»: den riktige treffet må vises i kandidatsettet før poengberegningen kan begynne.

Feature Engineering

For hver kandidat, en funksjonsvektor x\mathbf{x} er bygget opp av dusinvis av individuelle signaler, gruppert i 4 kategorier:
KategoriEksempler
StrenglikhetJaccard token-overlapping, Levenshtein avstand, n-gram likhet
SøkerelevansBM25 poengsum og rangering fra hentingsfasen
TekstnormaliseringSammenligning etter fjerning av tegnsetting, aksenter, juridiske suffikser og navnevarianter
MetadatajusteringKonsistens mellom land, sektor og identifikator (LEI) mellom inndata og kandidat

ML-poengsum

En maskinlæringsklassifikator tildeler en samsvarssannsynlighet til hver kandidat uavhengig: p^=P(matchx)\hat{p} = P(\text{match} \mid \mathbf{x}) Kandidatene rangeres etter p^\hat{p} og de øverste resultatene som returneres i svaret.

Opplæring

Modellen er trent på et internt datasett med titusenvis av merkede entitetsmatcher — hver et par med enten riktig eller feil match. Dette skiller seg fra selve CB Entity Database, som inneholder millioner av poster som tilsvarer observerte enheter fra bankinnleveringer. Modellen trenes på nytt hver uke etter hvert som både CB Entity Database og universet for entitetsoppløsning vokser.

Testing

Ytelsen evalueres ved hjelp av «k-fold kryssvalidering, noe som sikrer at målingene gjenspeiler generalisering over hele det merkede datasettet, snarere enn en enkelt oppdelings- og testdel. Ettersom modellen omskoleres på nye data, blir ytelsen revurdert hver syklus. Klassifiseringsmålinger rapporteres på siden «Accuracy & Coverage».

Konfidensscore

Hver kandidat returneres med en poengsum p^[0,1]\hat{p} \in [0, 1] som gjenspeiler modellens sikkerhet for at det er det riktige treffet. Internt bruker vi følgende bånd som veiledning, basert på ytelse målt på testdataene våre:
OmrådeSignalTreffrateBegrunnelse
p > 0,6Sterk treff94.4%Høy nok sikkerhet til å behandle som et treff uten manuell gjennomgang
p i [0.3, 0.6]Sannsynlig treff~65 %Modellen anser et treff som sannsynlig, men ikke sikkert — poengsummer i dette området krever gjennomgang før de godtas
p < 0,3Svakt~35 %Det er mindre sannsynlig at kandidaten er det riktige treffet — vises vanligvis bare for å bekrefte at det ikke finnes noe treff
Disse tallene gjenspeiler trefffrekvensen per kandidat. Når flere kandidater returneres (limit > 1) med lavere poengsum, kan den riktige enheten fortsatt være til stede et sted i resultatsettet — å gjennomgå de beste kandidatene samlet øker sjansen for en korrekt identifisering, selv når ingen enkelt poengsum er høy. Se «Enhetsoppløsning: Accuracy & Coverage» for en fullstendig analyse av avveiningen mellom terskelverdier.
Last modified on May 12, 2026