Precisión y cobertura

Dataset

El rendimiento se mide con un conjunto de nombres de entidades retenidos: nombres excluidos deliberadamente del entrenamiento para que el modelo nunca los haya visto. Esto garantiza que la evaluación refleje la generalización, no la memorización. Para cada nombre, la etapa de recuperación devuelve ~25 candidatos de la base de datos CB. El rendimiento se mide a nivel de par de candidatos: cada combinación de nombre y candidato es un ejemplo etiquetado.

	Valor
Nombres de entidades de ayuda	1,544
Pares candidatos etiquetados	39,051
Candidatos medios por entidad	25.3
Parejas iguales	1,544
Pares no coincidentes	37,507
Equilibrio de clases	~24 no coincidencias por coincidencia verdadera

Dado que sólo un candidato por nombre es correcto, el conjunto de datos está muy desequilibrado, reflejando la distribución del mundo real que el modelo encuentra en la producción. El rendimiento se reevalúa en cada ciclo semanal de reentrenamiento.

Matriz de Confusión

Qué mide: En matriz de confusión evalúa el modelo como clasificador binario en el umbral

\hat{p} \geq 0.60

. Los candidatos que superan el umbral se consideran coincidentes; los demás, no coincidentes. Resultado:

Verdadero positivo - 1.291

83,61% de coincidencias reales identificadas correctamente

Falso positivo - 110

0,29% de no coincidencias reales marcadas incorrectamente

Falso negativo - 253

16,39% de partidos reales por debajo del umbral - emergentes para revisión

Verdadero negativo - 37.397

99,71% de no coincidencias reales rechazadas correctamente

De estos recuentos se derivan dos métricas: Recordemos: ¿qué fracción de coincidencias verdaderas identificó correctamente el modelo?

De las 1.544 coincidencias verdaderas del conjunto de pruebas, 1.291 superaron el umbral. $\text{Recall} = \frac{T_p}{T_p + F_n} = \frac{1{,}291}{1{,}291 + 253} = 83.6\%$
Los 253 falsos negativos representan coincidencias que obtuvieron una puntuación inferior al umbral de confianza de 0,6.
En la práctica, Credit Benchmark descubre que la coincidencia verdadera sigue apareciendo en el conjunto de resultados, incluso cuando la confianza en la coincidencia correcta es inferior a 0,6.

**Puntuación F1: ¿cuál es el rendimiento combinado del modelo en cuanto a recuperación y precisión?

F1 es la media armónica de Recall y Precision: penaliza el desequilibrio entre ambas y recompensa a los modelos que obtienen buenos resultados en ambas. $F_1 = \frac{2T_p}{2T_p + F_p + F_n} = \frac{2 \times 1{,}291}{2 \times 1{,}291 + 110 + 253} = 87.7\%$
Un F1 del 87,7% refleja un buen rendimiento general de la clasificación en el umbral de 0,60: el modelo recupera la gran mayoría de las coincidencias verdaderas y produce pocas predicciones incorrectas.

Curva ROC y Precisión-Recuperación

Dado que el conjunto de datos está muy desequilibrado (~24:1), la curva Precisión-Recuperación es el diagnóstico más informativo ROC AUC puede ser engañosamente optimista en entornos desequilibrados.

Curva ROC

Qué mide: lo bien que el modelo separa las coincidencias de las no coincidencias en todos los umbrales posibles. La dirección Curva ROC representa la tasa de verdaderos positivos frente a la tasa de falsos positivos a medida que el umbral pasa de 1 a 0:

$\text{TPR} = \frac{T_p}{T_p + F_n}, \qquad \text{FPR} = \frac{F_p}{F_p + T_n}$

El área bajo esta curva (AUC) resume el rendimiento discriminativo: 1,0 es perfecto, 0,5 no es mejor que el azar. Resultado: AUC = 0,989 - separación casi perfecta entre coincidencias verdaderas y no coincidencias.

Precision-Recall Curve

Qué mide: cuánta precisión conserva el modelo a medida que recupera más coincidencias. Precisión media (AP) lo resume como el área ponderada bajo la curva PR:

$\text{Average Precision} = \sum_{n} (R_n - R_{n-1}) \cdot P_n$

donde:

$R_n$ - recuperación en el umbral $n$
$P_n$ - precisión en el umbral $n$

AP es más significativo que AUC cuando los ejemplos positivos son raros - AP = 1,0 es perfecto. Resultado: AP = 0,936 - se mantiene una gran precisión en la mayor parte del intervalo de recuperación.

Compensación entre precisión y cobertura

Qué mide: Precisión es el porcentaje de coincidencias previstas que son realmente correctas. La cobertura es la proporción de nombres de entrada que reciben una coincidencia por encima del umbral

k

$\text{Precision}(k) = \frac{T_p}{T_p + F_p}, \qquad \text{Coverage}(k) = \frac{n_{\geq k}}{N}$

donde:

$n_{\geq k}$ - número de nombres con puntuación igual o superior a $k$
$N$ - número total de nombres de entrada

Como umbral

k

cambios:

Subida $k$ - menos nombres coincidentes, mayor precisión, menor cobertura
Bajar $k$ - más nombres coincidentes, menor precisión, mayor cobertura

En punto de funcionamiento es el par específico (Cobertura, Precisión) en el umbral elegido: el punto de la curva en el que decide operar. Resultado:

Precision and coverage vs. confidence threshold

En el punto de funcionamiento

\hat{p} = 0.60

la precisión es del 94,4% y la cobertura del 66,7%. Dos tercios de los nombres obtienen una coincidencia de alta confianza; el tercio restante queda por debajo del umbral y requiere una revisión.

Visión general

Autenticación

A juego

Analítica

Dataset

Matriz de Confusión

Verdadero positivo - 1.291

Falso positivo - 110

Falso negativo - 253

Verdadero negativo - 37.397

Curva ROC y Precisión-Recuperación

Curva ROC

Precision-Recall Curve

Compensación entre precisión y cobertura

Visión general

Autenticación

A juego

Analítica

​Dataset

​Matriz de Confusión

Verdadero positivo - 1.291

Falso positivo - 110

Falso negativo - 253

Verdadero negativo - 37.397

​Curva ROC y Precisión-Recuperación

​Curva ROC

​Precision-Recall Curve

​Compensación entre precisión y cobertura

Dataset

Matriz de Confusión

Curva ROC y Precisión-Recuperación

Curva ROC

Precision-Recall Curve

Compensación entre precisión y cobertura