Entidad
nombre_entidad
país (opc)
industria (opc)
lei (opc)
1 - Recuperación de entidades candidatas
Busca posibles candidatos en la base de datos de entidades de crédito
2 - Ingeniería de funciones
Mide la similitud de nombres y la alineación de metadatos por candidato
3 - Puntuación ML
Puntúa cada candidato como probabilidad de coincidencia
Resultado principal
CBId
CBEntityName
confianza
rango
Pipeline
Recuperación de entidades candidatas
La base de datos de entidades CB admite la búsqueda aproximada de texto, devolviendo una lista de candidatos plausibles. La recuperación utiliza Clasificación BM25 - y normaliza el texto de entrada para tratar la puntuación, los acentos, los sufijos legales y las variantes comunes de los nombres. Se recuperan unos 20 candidatos por nombre. En esta etapa se da prioridad a recall sobre precisiónla coincidencia verdadera debe aparecer en el conjunto de candidatos antes de que pueda comenzar la puntuación.Feature Engineering
Para cada candidato, un vector de características se construye a partir de decenas de señales individuales, agrupadas en 4 categorías:| Categoría | Ejemplos |
|---|---|
| Serie similar | Jaccard solapamiento de fichas, Levenshtein distancia, n-gram similitud |
| Relevancia de la búsqueda | BM25 puntuación y posición en el ranking de la fase de recuperación |
| Normalización del texto | Comparación tras eliminar los signos de puntuación, los acentos, los sufijos legales y las variantes del nombre |
| Alineación de metadatos | País, sector e identificador (LEI) coherencia entre la entrada y el candidato |
Puntuación de aprendizaje automático (ML)
Un clasificador de aprendizaje automático asigna una probabilidad de coincidencia a cada candidato de forma independiente: Los candidatos se clasifican por y los principales resultados devueltos en la respuesta.Formación
El modelo se ha entrenado con un conjunto de datos interno de decenas de miles de coincidencias de entidades etiquetadas, cada una de ellas un par de coincidencias verdaderas o falsas. Esto es distinto de la propia base de datos de entidades CB, que contiene millones de registros correspondientes a entidades observadas de presentaciones bancarias. El modelo se reentrena semanalmente a medida que crecen tanto la base de datos de entidades CB como el universo de correspondencias.Pruebas
El rendimiento se evalúa mediante validación cruzada k-fold, lo que garantiza que las métricas reflejen la generalización en todo el conjunto de datos etiquetados en lugar de una única división de entrenamiento/prueba. Como el modelo se vuelve a entrenar con nuevos datos, el rendimiento se reevalúa en cada ciclo. Las métricas de clasificación se presentan en el Precisión y cobertura página.Puntuación de confianza
Cada candidato recibe una puntuación que refleja la certeza del modelo de que se trata de la coincidencia correcta. Internamente, utilizamos las siguientes bandas como orientación, basándonos en el rendimiento medido en nuestros datos de prueba:| Gama | Señal | Tasa de coincidencia | Justificación |
|---|---|---|---|
| Partido fuerte | 94.4% | Confianza lo suficientemente alta como para tratarlo como coincidencia sin revisión manual | |
| Probable coincidencia | ~65% | El modelo considera que una coincidencia es plausible, pero no segura: las puntuaciones en este rango deben revisarse antes de aceptarla | |
| Débil | ~35% | El candidato tiene menos probabilidades de ser la coincidencia correcta: suele aparecer sólo para confirmar que no existe ninguna coincidencia |
limit > 1) con puntuaciones más bajas, es posible que la coincidencia verdadera siga estando presente en algún lugar del conjunto de resultados: la revisión colectiva de los principales candidatos mejora la probabilidad de una resolución correcta incluso cuando ninguna puntuación es alta.
Véase Precisión y cobertura para un análisis completo del umbral de compensación.
