Saltar al contenido principal
El proceso de concordancia resuelve los nombres de entidades de texto libre en Credit Benchmark a través de tres pasos: recuperación de candidatos, ingeniería de características y puntuación ML. Cada entrada devuelve coincidencias clasificadas con una puntuación de confianza entre 0 y 1.
Entidad
nombre_entidad
país (opc)
industria (opc)
lei (opc)
1 - Recuperación de entidades candidatas
Busca posibles candidatos en la base de datos de entidades de crédito
2 - Ingeniería de funciones
Mide la similitud de nombres y la alineación de metadatos por candidato
3 - Puntuación ML
Puntúa cada candidato como probabilidad de coincidencia
Resultado principal
CBId
CBEntityName
confianza
rango
Este flujo muestra el flujo de trabajo de cotejo de extremo a extremo, desde los campos de entidad de entrada hasta los resultados de candidatos clasificados.

Pipeline

Recuperación de entidades candidatas

La base de datos de entidades CB admite la búsqueda aproximada de texto, devolviendo una lista de candidatos plausibles. La recuperación utiliza Clasificación BM25 - y normaliza el texto de entrada para tratar la puntuación, los acentos, los sufijos legales y las variantes comunes de los nombres. Se recuperan unos 20 candidatos por nombre. En esta etapa se da prioridad a recall sobre precisiónla coincidencia verdadera debe aparecer en el conjunto de candidatos antes de que pueda comenzar la puntuación.

Feature Engineering

Para cada candidato, un vector de características x\mathbf{x} se construye a partir de decenas de señales individuales, agrupadas en 4 categorías:
CategoríaEjemplos
Serie similarJaccard solapamiento de fichas, Levenshtein distancia, n-gram similitud
Relevancia de la búsquedaBM25 puntuación y posición en el ranking de la fase de recuperación
Normalización del textoComparación tras eliminar los signos de puntuación, los acentos, los sufijos legales y las variantes del nombre
Alineación de metadatosPaís, sector e identificador (LEI) coherencia entre la entrada y el candidato

Puntuación de aprendizaje automático (ML)

Un clasificador de aprendizaje automático asigna una probabilidad de coincidencia a cada candidato de forma independiente: p^=P(matchx)\hat{p} = P(\text{match} \mid \mathbf{x}) Los candidatos se clasifican por p^\hat{p} y los principales resultados devueltos en la respuesta.

Formación

El modelo se ha entrenado con un conjunto de datos interno de decenas de miles de coincidencias de entidades etiquetadas, cada una de ellas un par de coincidencias verdaderas o falsas. Esto es distinto de la propia base de datos de entidades CB, que contiene millones de registros correspondientes a entidades observadas de presentaciones bancarias. El modelo se reentrena semanalmente a medida que crecen tanto la base de datos de entidades CB como el universo de correspondencias.

Pruebas

El rendimiento se evalúa mediante validación cruzada k-fold, lo que garantiza que las métricas reflejen la generalización en todo el conjunto de datos etiquetados en lugar de una única división de entrenamiento/prueba. Como el modelo se vuelve a entrenar con nuevos datos, el rendimiento se reevalúa en cada ciclo. Las métricas de clasificación se presentan en el Precisión y cobertura página.

Puntuación de confianza

Cada candidato recibe una puntuación p^[0,1]\hat{p} \in [0, 1] que refleja la certeza del modelo de que se trata de la coincidencia correcta. Internamente, utilizamos las siguientes bandas como orientación, basándonos en el rendimiento medido en nuestros datos de prueba:
GamaSeñalTasa de coincidenciaJustificación
p^0.60\hat{p} \geq 0.60Partido fuerte94.4%Confianza lo suficientemente alta como para tratarlo como coincidencia sin revisión manual
0.30p^<0.600.30 \leq \hat{p} < 0.60Probable coincidencia~65%El modelo considera que una coincidencia es plausible, pero no segura: las puntuaciones en este rango deben revisarse antes de aceptarla
p^<0.30\hat{p} < 0.30Débil~35%El candidato tiene menos probabilidades de ser la coincidencia correcta: suele aparecer sólo para confirmar que no existe ninguna coincidencia
Estas cifras reflejan los porcentajes de concordancia por candidato. Cuando se devuelven varios candidatos (limit > 1) con puntuaciones más bajas, es posible que la coincidencia verdadera siga estando presente en algún lugar del conjunto de resultados: la revisión colectiva de los principales candidatos mejora la probabilidad de una resolución correcta incluso cuando ninguna puntuación es alta. Véase Precisión y cobertura para un análisis completo del umbral de compensación.