Dataset
El rendimiento se mide con un conjunto de nombres de entidades retenidos: nombres excluidos deliberadamente del entrenamiento para que el modelo nunca los haya visto. Esto garantiza que la evaluación refleje la generalización, no la memorización. Para cada nombre, la etapa de recuperación devuelve ~25 candidatos de la base de datos CB. El rendimiento se mide a nivel de par de candidatos: cada combinación de nombre y candidato es un ejemplo etiquetado.| Valor | |
|---|---|
| Nombres de entidades de ayuda | 1,544 |
| Pares candidatos etiquetados | 39,051 |
| Candidatos medios por entidad | 25.3 |
| Parejas iguales | 1,544 |
| Pares no coincidentes | 37,507 |
| Equilibrio de clases | ~24 no coincidencias por coincidencia verdadera |
Matriz de Confusión
Qué mide: En matriz de confusión evalúa el modelo como clasificador binario en el umbral . Los candidatos que superan el umbral se consideran coincidentes; los demás, no coincidentes. Resultado:Verdadero positivo - 1.291
83,61% de coincidencias reales identificadas correctamente
Falso positivo - 110
0,29% de no coincidencias reales marcadas incorrectamente
Falso negativo - 253
16,39% de partidos reales por debajo del umbral - emergentes para revisión
Verdadero negativo - 37.397
99,71% de no coincidencias reales rechazadas correctamente
- De las 1.544 coincidencias verdaderas del conjunto de pruebas, 1.291 superaron el umbral.
- Los 253 falsos negativos representan coincidencias que obtuvieron una puntuación inferior al umbral de confianza de 0,6.
- En la práctica, Credit Benchmark descubre que la coincidencia verdadera sigue apareciendo en el conjunto de resultados, incluso cuando la confianza en la coincidencia correcta es inferior a 0,6.
- F1 es la media armónica de Recall y Precision: penaliza el desequilibrio entre ambas y recompensa a los modelos que obtienen buenos resultados en ambas.
- Un F1 del 87,7% refleja un buen rendimiento general de la clasificación en el umbral de 0,60: el modelo recupera la gran mayoría de las coincidencias verdaderas y produce pocas predicciones incorrectas.
Curva ROC y Precisión-Recuperación
Dado que el conjunto de datos está muy desequilibrado (~24:1), la curva Precisión-Recuperación es el diagnóstico más informativo ROC AUC puede ser engañosamente optimista en entornos desequilibrados.
Curva ROC
Qué mide: lo bien que el modelo separa las coincidencias de las no coincidencias en todos los umbrales posibles. La dirección Curva ROC representa la tasa de verdaderos positivos frente a la tasa de falsos positivos a medida que el umbral pasa de 1 a 0:Precision-Recall Curve
Qué mide: cuánta precisión conserva el modelo a medida que recupera más coincidencias. Precisión media (AP) lo resume como el área ponderada bajo la curva PR:- - recuperación en el umbral
- - precisión en el umbral
Compensación entre precisión y cobertura
Qué mide: Precisión es el porcentaje de coincidencias previstas que son realmente correctas. La cobertura es la proporción de nombres de entrada que reciben una coincidencia por encima del umbral :- - número de nombres con puntuación igual o superior a
- - número total de nombres de entrada
- Subida - menos nombres coincidentes, mayor precisión, menor cobertura
- Bajar - más nombres coincidentes, menor precisión, mayor cobertura


