Coincidencia de nombres y asignación de CBID

Cada entrada devuelve coincidencias clasificadas con una puntuación de confianza comprendida entre 0 y 1.

Entidad

entity_name
país (opcional)
sector (opcional)
LEI (opcional)

1 — Recuperación de entidades candidatas

Busca en la base de datos de entidades de CB los candidatos más probables

2 — Ingeniería de características

Mide la similitud de nombres y la alineación de metadatos por candidato.

3 — Puntuación de ML

Asigne a cada candidato una probabilidad de coincidencia.

Resultado principal

CBId
CBEntityName
confianza
rango

Este flujo muestra el proceso de resolución de principio a fin, desde los campos de entidad de entrada hasta los resultados de candidatos clasificados.

Proceso

Recuperación de entidades candidatas

La base de datos de entidades de Credit Benchmark admite búsquedas de texto aproximado y devuelve una lista de candidatos plausibles. El sistema emplea un método de puntuación basado en la frecuencia de términos y la frecuencia inversa de documentos (Clasificación BM25), y normaliza el texto de entrada para gestionar signos de puntuación, acentos, sufijos legales y variantes comunes de nombres. Se recuperan alrededor de 20 candidatos por nombre. Esta etapa da prioridad a la «Recuerdo frente a precisión»: la coincidencia verdadera debe aparecer en el conjunto de candidatos antes de que pueda comenzar la puntuación.

Ingeniería de características

Para cada candidato, un vector de características

\mathbf{x}

El modelo se basa en docenas de señales individuales, agrupadas en 4 categorías:

Categoría	Ejemplos
Similitud de cadenas	Jaccard superposición de tokens, Levenshtein distancia, n-gram similitud
Relevancia de la búsqueda	BM25 Puntuación y posición en la clasificación de la fase de recuperación
Normalización de texto	Comparación tras eliminar la puntuación, los acentos, los sufijos legales y las variantes de los nombres
Alineación de metadatos	Coherencia entre la entrada y los candidatos en cuanto a país, sector e identificador (LEI)

Puntuación del modelo

Un clasificador de aprendizaje automático asigna una probabilidad de coincidencia a cada candidato de forma independiente:

\hat{p} = P(\text{match} \mid \mathbf{x})

Los candidatos se clasifican por

\hat{p}

y los principales resultados devueltos en la respuesta.

Entrenamiento

El modelo se ha entrenado con un conjunto de datos interno de decenas de miles de coincidencias de entidades etiquetadas, cada una de las cuales es un par de coincidencia verdadera o falsa. Esto difiere de la propia base de datos de entidades de CB, que contiene millones de registros correspondientes a entidades observadas en envíos bancarios. El modelo se vuelve a entrenar semanalmente a medida que crecen tanto la base de datos de entidades de CB como el universo de resolución de entidades.

Pruebas

El rendimiento se evalúa mediante el método de la media de los valores de predicción (Validación cruzada de k pliegos, lo que garantiza que las métricas reflejen la generalización en todo el conjunto de datos etiquetado, en lugar de una única división entre entrenamiento y prueba. A medida que el modelo se vuelve a entrenar con nuevos datos, el rendimiento se reevalúa en cada ciclo. Las métricas de clasificación se recogen en la página Precisión y Cobertura.

Puntuación de confianza

Cada candidato se devuelve con una puntuación

\hat{p} \in [0, 1]

reflejando la certeza del modelo de que se trata de la coincidencia correcta. A nivel interno, utilizamos las siguientes bandas como orientación, basadas en el rendimiento medido en nuestros datos de prueba:

Rango	Señal	Tasa de coincidencia	Justificación
p > 0,6	Coincidencia fuerte	94.4%	Confianza lo suficientemente alta como para considerarla una coincidencia sin necesidad de revisión manual
p en [0.3, 0.6]	Coincidencia probable	~65 %	El modelo considera que la coincidencia es plausible, pero no segura: las puntuaciones en este rango deben revisarse antes de aceptarlas
p < 0,3	Baja	~35 %	Es menos probable que el candidato sea la coincidencia correcta; por lo general, solo se muestra para confirmar la ausencia de coincidencias.

Estas cifras reflejan las tasas de coincidencia por candidato. Cuando se devuelven varios candidatos (limit > 1) con puntuaciones más bajas, la entidad verdadera puede seguir estando presente en algún lugar del conjunto de resultados; revisar los principales candidatos de forma conjunta mejora las posibilidades de una resolución correcta, incluso cuando ninguna puntuación individual es alta. Consulte «Resolución de entidades: Precisión y Cobertura» para obtener un análisis completo de la relación entre umbrales.

Resumen

Puntos finales

Modelo de resolución de entidades

Análisis

Coincidencia de nombres y asignación de CBID

Proceso

Recuperación de entidades candidatas

Ingeniería de características

Puntuación del modelo

Entrenamiento

Pruebas

Puntuación de confianza

​Proceso

​Recuperación de entidades candidatas

​Ingeniería de características

​Puntuación del modelo

​Entrenamiento

​Pruebas

​Puntuación de confianza

Proceso

Recuperación de entidades candidatas

Ingeniería de características

Puntuación del modelo

Entrenamiento

Pruebas

Puntuación de confianza