Enhet
entity_name
land (opt)
industri (opt)
lEI (opt)
1 - Gjenfinning av kandidat-entiteter
Søker i CB Entity-databasen etter sannsynlige kandidater
2 - Feature Engineering
Måler navnelikhet og metadatatilpasning per kandidat
3 - ML-scoring
Vurderer hver kandidat som en match-sannsynlighet
Toppresultat
CBId
CBEntityName
tillit
rang
Pipeline
Gjenfinning av kandidat-entiteter
CB Entity Database støtter tilnærmet tekstsøk, og returnerer en kortliste med plausible kandidater. Gjenfinning bruker BM25-rangering - og normaliserer inndatateksten for å håndtere tegnsetting, aksenter, juridiske suffikser og vanlige navnevarianter. Rundt 20 kandidater hentes ut per navn. I denne fasen prioriteres tilbakekalling over presisjon: Det sanne samsvaret må vises i kandidatsettet før poengberegningen kan begynne.Feature Engineering
For hver kandidat opprettes en funksjonsvektor er bygget opp av dusinvis av individuelle signaler, gruppert i fire kategorier:| Kategori | Eksempler |
|---|---|
| String similarity | Jaccard symbolsk overlapping, Levenshtein avstand, n-gram likhet |
| Søkerelevans | BM25 poengsum og rangering fra gjenfinningsfasen |
| Normalisering av tekst | Sammenligning etter fjerning av tegnsetting, aksenter, lovlige suffikser og navnevarianter |
| Justering av metadata | Land, sektor og identifikator (LEI) konsistens mellom input og kandidat |
Maskinlæring (ML) scoring
En maskinlæringsklassifiserer tildeler en match-sannsynlighet til hver kandidat uavhengig av hverandre: Kandidatene rangeres etter og de beste resultatene som returneres i svaret.Opplæring
Modellen er trent opp på et internt datasett med titusenvis av merkede entitetsmatcher - hver av dem et sant eller falskt matchpar. Dette skiller seg fra selve CB Entity Database, som inneholder millioner av poster som tilsvarer observerte entiteter fra bankinnleveringer. Modellen trenes på nytt hver uke etter hvert som både CB-entitetsdatabasen og matchingsuniverset vokser.Testing
Ytelsen evalueres ved hjelp av k-fold kryssvalidering, noe som sikrer at beregningene gjenspeiler generalisering på tvers av hele det merkede datasettet i stedet for en enkelt oppdeling av trening/test. Etter hvert som modellen trenes på nytt på nye data, evalueres ytelsen på nytt for hver syklus. Klassifiseringsberegninger rapporteres på Nøyaktighet og dekning side.Konfidensscore
Hver kandidat returneres med en poengsum som gjenspeiler modellens visshet om at det er riktig match. Internt bruker vi følgende intervaller som veiledning, basert på resultater målt på våre testdata:| Rekkevidde | Signal | Matchfrekvens | Begrunnelse |
|---|---|---|---|
| Sterk kamp | 94.4% | Høy nok tillit til å behandle som en match uten manuell gjennomgang | |
| Sannsynlig match | ~65% | Modellen anser en match som sannsynlig, men ikke sikker - poengsummer i dette området bør vurderes før de aksepteres | |
| Svak | ~35% | Det er mindre sannsynlig at kandidaten er det riktige matchet - vanligvis dukker den bare opp for å bekrefte at det ikke finnes noe match |
limit > 1) ved lavere poengsummer, kan det sanne samsvaret likevel finnes et sted i resultatsettet - ved å gjennomgå de beste kandidatene samlet øker sjansen for en korrekt oppløsning, selv når ingen enkeltkandidat har høy poengsum.
Se Nøyaktighet og dekning for en fullstendig terskelavveiningsanalyse.
