Entidad
entity_name
país (opc.)
sector (opcional)
LEI (opcional)
1 — Recuperación de entidades candidatas
Busca en la base de datos de entidades de CB los candidatos más probables
2 — Ingeniería de características
Mide la similitud de nombres y la alineación de metadatos por candidato.
3 — Puntuación de ML
Asigne a cada candidato una probabilidad de coincidencia.
Resultado principal
CBId
CBEntityName
confianza
rango
Proceso
Recuperación de entidades candidatas
La base de datos de entidades de Credit Benchmark admite búsquedas de texto aproximado y devuelve una lista de candidatos plausibles. El sistema emplea un método de puntuación basado en la frecuencia de términos y la frecuencia inversa de documentos (Clasificación BM25), y normaliza el texto de entrada para gestionar signos de puntuación, acentos, sufijos legales y variantes comunes de nombres. Se recuperan alrededor de 20 candidatos por nombre. Esta etapa da prioridad a la «Recuerdo frente a precisión»: la coincidencia verdadera debe aparecer en el conjunto de candidatos antes de que pueda comenzar la puntuación.Ingeniería de características
Para cada candidato, un vector de características El modelo se basa en docenas de señales individuales, agrupadas en 4 categorías:| Categoría | Ejemplos |
|---|---|
| Similitud de cadenas | Jaccard superposición de tokens, Levenshtein distancia, n-gram similitud |
| Relevancia de la búsqueda | BM25 Puntuación y posición en la clasificación de la fase de recuperación |
| Normalización de texto | Comparación tras eliminar la puntuación, los acentos, los sufijos legales y las variantes de los nombres |
| Alineación de metadatos | Coherencia entre la entrada y los candidatos en cuanto a país, sector e identificador (LEI) |
Puntuación del modelo
Un clasificador de aprendizaje automático asigna una probabilidad de coincidencia a cada candidato de forma independiente: Los candidatos se clasifican por y los principales resultados devueltos en la respuesta.Entrenamiento
El modelo se ha entrenado con un conjunto de datos interno de decenas de miles de coincidencias de entidades etiquetadas, cada una de las cuales es un par de coincidencia verdadera o falsa. Esto difiere de la propia base de datos de entidades de CB, que contiene millones de registros correspondientes a entidades observadas en envíos bancarios. El modelo se vuelve a entrenar semanalmente a medida que crecen tanto la base de datos de entidades de CB como el universo de resolución de entidades.Pruebas
El rendimiento se evalúa mediante el método de la media de los valores de predicción (Validación cruzada de k pliegos, lo que garantiza que las métricas reflejen la generalización en todo el conjunto de datos etiquetado, en lugar de una única división entre entrenamiento y prueba. A medida que el modelo se vuelve a entrenar con nuevos datos, el rendimiento se reevalúa en cada ciclo. Las métricas de clasificación se recogen en la página Precisión y Cobertura.Puntuación de confianza
Cada candidato se devuelve con una puntuación reflejando la certeza del modelo de que se trata de la coincidencia correcta. A nivel interno, utilizamos las siguientes bandas como orientación, basadas en el rendimiento medido en nuestros datos de prueba:| Rango | Señal | Tasa de coincidencia | Justificación |
|---|---|---|---|
| p > 0,6 | Coincidencia fuerte | 94.4% | Confianza lo suficientemente alta como para considerarla una coincidencia sin necesidad de revisión manual |
| p en [0.3, 0.6] | Coincidencia probable | ~65 % | El modelo considera que la coincidencia es plausible, pero no segura: las puntuaciones en este rango deben revisarse antes de aceptarlas |
| p < 0,3 | Baja | ~35 % | Es menos probable que el candidato sea la coincidencia correcta; por lo general, solo se muestra para confirmar la ausencia de coincidencias. |
limit > 1) con puntuaciones más bajas, la entidad verdadera puede seguir estando presente en algún lugar del conjunto de resultados; revisar los principales candidatos de forma conjunta mejora las posibilidades de una resolución correcta, incluso cuando ninguna puntuación individual es alta.
Consulte «Resolución de entidades: Precisión y Cobertura» para obtener un análisis completo de la relación entre umbrales.
