Saltar al contenido principal

Conjunto de datos

El rendimiento se mide sobre un conjunto de nombres de entidades retenidos —excluidos deliberadamente del entrenamiento para que el modelo nunca los haya visto—. Esto garantiza que la evaluación refleje la capacidad de generalización, no la memorización. Para cada nombre, la etapa de recuperación devuelve unos 25 candidatos de la base de datos CB. El rendimiento se mide a nivel de pares de candidatos: cada combinación de nombre y candidato constituye un ejemplo etiquetado.
Valor
Nombres de entidades excluidos1.544
Pares de candidatos etiquetados39 051
Promedio de candidatos por entidad25.3
Pares de coincidencias verdaderas1 544
Pares sin coincidencia37 507
Equilibrio de clasesSe estiman 24 coincidencias falsas por cada coincidencia verdadera.
Dado que solo un candidato por nombre es correcto, el conjunto de datos presenta un fuerte desequilibrio, lo que refleja la distribución del mundo real con la que se encuentra el modelo en producción. El rendimiento se reevalúa con cada ciclo de reentrenamiento semanal.

Matriz de confusión

Lo que mide: El «Matriz de confusión» evalúa el modelo como un clasificador binario en el umbral. p^0.60\hat{p} \geq 0.60Los registros por encima del umbral se clasifican como coincidencias; el resto, como no coincidencias. Resultado:

Verdaderos positivos: 1.291.

83.61% de coincidencias reales identificadas correctamente

Falsos positivos — 110

0.29% de coincidencias reales marcadas erróneamente como no coincidentes.

Falsos negativos — 253

16.39% Las coincidencias reales por debajo del umbral se marcan para su revisión.

Valores verdaderos negativos — 37 397

99.71% de las coincidencias falsas reales rechazadas correctamente.
A partir de estos recuentos se derivan dos métricas: Recuperación: ¿qué fracción de coincidencias verdaderas identificó correctamente el modelo?
  • De las 1544 coincidencias verdaderas del conjunto de prueba, 1291 obtuvieron una puntuación superior al umbral. Recall=TpTp+Fn=1,2911,291+253=83.6%\text{Recall} = \frac{T_p}{T_p + F_n} = \frac{1{,}291}{1{,}291 + 253} = 83.6\% Los 253 falsos negativos corresponden a coincidencias que obtuvieron una puntuación inferior al umbral de confianza del sistema de gestión de nombres (0.6). En la práctica, Credit Benchmark observa que la coincidencia verdadera sigue figurando en el conjunto de resultados, incluso cuando la confianza en la coincidencia correcta es inferior a 0,6.
Puntuación F1: ¿cuál es el rendimiento combinado del modelo en cuanto a recuperación y precisión?
  • F1 es la media armónica de la recuperación y la precisión: penaliza el desequilibrio entre ambas y premia a los modelos que obtienen buenos resultados en ambas. F1=2Tp2Tp+Fp+Fn=2×1,2912×1,291+110+253=87.7%F_1 = \frac{2T_p}{2T_p + F_p + F_n} = \frac{2 \times 1{,}291}{2 \times 1{,}291 + 110 + 253} = 87.7\%
  • Un F1 de 87.7% refleja un sólido rendimiento general de clasificación en el umbral 0.60: el modelo recupera la gran mayoría de las coincidencias verdaderas, al tiempo que produce pocas predicciones incorrectas.

Curva ROC y precisión-recuerdo

Dado que el conjunto de datos presenta un desequilibrio considerable (~24:1), la curva de precisión-recuerdo constituye el diagnóstico más informativo — El AUC de la curva ROC puede resultar engañosamente optimista en entornos desequilibrados..
ROC and Precision-Recall curves

Curva ROC

Lo que mide: la capacidad del modelo para distinguir las coincidencias de las no coincidencias en todos los umbrales posibles. El gráfico «Curva ROC» representa la tasa de verdaderos positivos frente a la tasa de falsos positivos a medida que el umbral varía de 1 a 0:
  • TPR=TpTp+Fn,FPR=FpFp+Tn\text{TPR} = \frac{T_p}{T_p + F_n}, \qquad \text{FPR} = \frac{F_p}{F_p + T_n}
El área bajo esta curva (AUC) resume el rendimiento discriminativo: un valor de 1.0 es perfecto, mientras que un valor de 0.5 no es mejor que el azar. Resultado: AUC =0.989, lo que indica una separación casi perfecta entre las coincidencias verdaderas y las no coincidencias.

Curva de precisión-recuerdo

Lo que mide: cuánta precisión conserva el modelo a medida que recupera más coincidencias. [Precisión media (AP)](https://en.wikipedia.org/wiki/Evaluation_measures_\(information_retrieval\) #Average_precision) resume esto como el área ponderada bajo la curva PR:
  • Average Precision=n(RnRn1)Pn\text{Average Precision} = \sum_{n} (R_n - R_{n-1}) \cdot P_n
donde:
  • RnR_n — recuperación en el umbral. nn
  • PnP_n — precisión en el umbral nn
El AP resulta más informativo que el AUC cuando los ejemplos positivos son escasos; un valor AP = 1,0 indica un rendimiento perfecto. Resultado: AP =0.936 — se mantiene una alta precisión en la mayor parte del rango de recuperación.

Compromiso entre precisión y cobertura

Lo que mide: Precisión La precisión es la proporción de coincidencias previstas que resultan correctas. La cobertura es la proporción de nombres introducidos que reciben una coincidencia por encima del umbral. kk:
  • Precision(k)=TpTp+Fp,Coverage(k)=nkN\text{Precision}(k) = \frac{T_p}{T_p + F_p}, \qquad \text{Coverage}(k) = \frac{n_{\geq k}}{N}
donde:
  • nkn_{\geq k} — número de nombres con una puntuación igual o superior a kk
  • NN — número total de nombres introducidos
Como umbral kk Cambios: Al elevar kk — menos nombres coincidentes, mayor precisión, menor cobertura
  • Reducción kk — a medida que aumentan las coincidencias, la precisión disminuye y la cobertura aumenta.
El punto de operación (Punto de funcionamiento) es la pareja específica (cobertura, precisión) en el umbral elegido: el punto de la curva en el que se decide actuar. Resultado:
Precision and coverage vs. confidence threshold
En el punto de funcionamiento p^=0.60\hat{p} = 0.60En el punto de operación estimado (), la precisión es del y la cobertura del . Dos tercios de los nombres obtienen una coincidencia de alta confianza; el tercio restante queda por debajo del umbral y requiere revisión.
Last modified on May 6, 2026