Saltar al contenido principal

Dataset

El rendimiento se mide con un conjunto de nombres de entidades retenidos: nombres excluidos deliberadamente del entrenamiento para que el modelo nunca los haya visto. Esto garantiza que la evaluación refleje la generalización, no la memorización. Para cada nombre, la etapa de recuperación devuelve ~25 candidatos de la base de datos CB. El rendimiento se mide a nivel de par de candidatos: cada combinación de nombre y candidato es un ejemplo etiquetado.
Valor
Nombres de entidades de ayuda1,544
Pares candidatos etiquetados39,051
Candidatos medios por entidad25.3
Parejas iguales1,544
Pares no coincidentes37,507
Equilibrio de clases~24 no coincidencias por coincidencia verdadera
Dado que sólo un candidato por nombre es correcto, el conjunto de datos está muy desequilibrado, reflejando la distribución del mundo real que el modelo encuentra en la producción. El rendimiento se reevalúa en cada ciclo semanal de reentrenamiento.

Matriz de Confusión

Qué mide: En matriz de confusión evalúa el modelo como clasificador binario en el umbral p^0.60\hat{p} \geq 0.60. Los candidatos que superan el umbral se consideran coincidentes; los demás, no coincidentes. Resultado:

Verdadero positivo - 1.291

83,61% de coincidencias reales identificadas correctamente

Falso positivo - 110

0,29% de no coincidencias reales marcadas incorrectamente

Falso negativo - 253

16,39% de partidos reales por debajo del umbral - emergentes para revisión

Verdadero negativo - 37.397

99,71% de no coincidencias reales rechazadas correctamente
De estos recuentos se derivan dos métricas: Recordemos: ¿qué fracción de coincidencias verdaderas identificó correctamente el modelo?
  • De las 1.544 coincidencias verdaderas del conjunto de pruebas, 1.291 superaron el umbral. Recall=TpTp+Fn=1,2911,291+253=83.6%\text{Recall} = \frac{T_p}{T_p + F_n} = \frac{1{,}291}{1{,}291 + 253} = 83.6\%
  • Los 253 falsos negativos representan coincidencias que obtuvieron una puntuación inferior al umbral de confianza de 0,6.
  • En la práctica, Credit Benchmark descubre que la coincidencia verdadera sigue apareciendo en el conjunto de resultados, incluso cuando la confianza en la coincidencia correcta es inferior a 0,6.
**Puntuación F1: ¿cuál es el rendimiento combinado del modelo en cuanto a recuperación y precisión?
  • F1 es la media armónica de Recall y Precision: penaliza el desequilibrio entre ambas y recompensa a los modelos que obtienen buenos resultados en ambas. F1=2Tp2Tp+Fp+Fn=2×1,2912×1,291+110+253=87.7%F_1 = \frac{2T_p}{2T_p + F_p + F_n} = \frac{2 \times 1{,}291}{2 \times 1{,}291 + 110 + 253} = 87.7\%
  • Un F1 del 87,7% refleja un buen rendimiento general de la clasificación en el umbral de 0,60: el modelo recupera la gran mayoría de las coincidencias verdaderas y produce pocas predicciones incorrectas.

Curva ROC y Precisión-Recuperación

Dado que el conjunto de datos está muy desequilibrado (~24:1), la curva Precisión-Recuperación es el diagnóstico más informativo ROC AUC puede ser engañosamente optimista en entornos desequilibrados.
ROC and Precision-Recall curves

Curva ROC

Qué mide: lo bien que el modelo separa las coincidencias de las no coincidencias en todos los umbrales posibles. La dirección Curva ROC representa la tasa de verdaderos positivos frente a la tasa de falsos positivos a medida que el umbral pasa de 1 a 0:
  • TPR=TpTp+Fn,FPR=FpFp+Tn\text{TPR} = \frac{T_p}{T_p + F_n}, \qquad \text{FPR} = \frac{F_p}{F_p + T_n}
El área bajo esta curva (AUC) resume el rendimiento discriminativo: 1,0 es perfecto, 0,5 no es mejor que el azar. Resultado: AUC = 0,989 - separación casi perfecta entre coincidencias verdaderas y no coincidencias.

Precision-Recall Curve

Qué mide: cuánta precisión conserva el modelo a medida que recupera más coincidencias. Precisión media (AP) lo resume como el área ponderada bajo la curva PR:
  • Average Precision=n(RnRn1)Pn\text{Average Precision} = \sum_{n} (R_n - R_{n-1}) \cdot P_n
donde:
  • RnR_n - recuperación en el umbral nn
  • PnP_n - precisión en el umbral nn
AP es más significativo que AUC cuando los ejemplos positivos son raros - AP = 1,0 es perfecto. Resultado: AP = 0,936 - se mantiene una gran precisión en la mayor parte del intervalo de recuperación.

Compensación entre precisión y cobertura

Qué mide: Precisión es el porcentaje de coincidencias previstas que son realmente correctas. La cobertura es la proporción de nombres de entrada que reciben una coincidencia por encima del umbral kk:
  • Precision(k)=TpTp+Fp,Coverage(k)=nkN\text{Precision}(k) = \frac{T_p}{T_p + F_p}, \qquad \text{Coverage}(k) = \frac{n_{\geq k}}{N}
donde:
  • nkn_{\geq k} - número de nombres con puntuación igual o superior a kk
  • NN - número total de nombres de entrada
Como umbral kk cambios:
  • Subida kk - menos nombres coincidentes, mayor precisión, menor cobertura
  • Bajar kk - más nombres coincidentes, menor precisión, mayor cobertura
En punto de funcionamiento es el par específico (Cobertura, Precisión) en el umbral elegido: el punto de la curva en el que decide operar. Resultado:
Precision and coverage vs. confidence threshold
En el punto de funcionamiento p^=0.60\hat{p} = 0.60la precisión es del 94,4% y la cobertura del 66,7%. Dos tercios de los nombres obtienen una coincidencia de alta confianza; el tercio restante queda por debajo del umbral y requiere una revisión.