ConfusionMatrix en sklearn

Salida de la matriz de evaluación por sklearn

Resultados de la salida

Análisis de resultados

Resultados de la salida

Referencia: Basado en Índice de evaluación de Matriz de confusión

La Matriz de confusión es un índice utilizado para evaluar la calidad del algoritmo en tareas de reconocimiento. La siguiente figura es una matriz de confusión para un problema de dos clasificaciones:

Términos relacionados:

AccuracyRate (tasa de precisión): (TP TN)/(TP TN FN FP)

ErrorRate (tasa de error): (FN FP)/(TP TN FN FP)

Recall (tasa de recuperación, tasa de recuperación, probabilidad de acierto): TP/(TP FN), en total GroundTruth es cuántas de las muestras positivas se reconocen como muestras positivas;

Precisión: TP/(TP FP), cuántas de todas las muestras positivas se reconocen como muestras positivas verdaderas;

TPR (Tasa de verdaderos positivos): TP/(TP FN), recuperación real

FAR (Tasa de aceptación falsa) o FPR (Tasa de falsos positivos): FP/(FP TN), tasa de recepción incorrecta, tasa de falsos positivos , cuántas de todas las muestras negativas de GroundTruth se reconocen como muestras positivas;

FRR (tasa de rechazo falso): FN/(TP FN), tasa de rechazo falso, tasa de rechazo verdadero, cuántas de todas las muestras positivas de GroundTruth son reconocidas como muestras negativas, es igual a 1-Recall

Curva ROC (curva característica operativa del receptor):

El resultado del reconocimiento de cada umbral Corresponde a un punto (FPR, TPR) Cuando el valor umbral es el más grande, todas las muestras se reconocen como muestras negativas, correspondientes al punto (0, 0) en la esquina superior derecha. Cuando el valor umbral es el más pequeño, todas las muestras se reconocen como muestras positivas, correspondientes a. Punto (1, 1) en la esquina superior derecha, a medida que el umbral cambia del máximo al mínimo, tanto TP como FP aumentan gradualmente

Un buen modelo de clasificación debe ubicarse en la esquina superior izquierda de; la imagen tanto como sea posible, y un El modelo de adivinación aleatoria debe ubicarse en la diagonal principal que conecta los puntos (TPR=0, FPR=0) y (TPR=1, FPR=1); El valor AUC (AreaUnder roc Curve) del área bajo la curva ROC para medir la calidad del algoritmo: si el modelo es perfecto, entonces su AUG = 1, si el modelo es un modelo de adivinación aleatoria simple, entonces su AUG = 0,5, si un modelo es mejor que el otro, entonces su AUG = 0,5 El área bajo la curva es relativamente grande

ERR (tasa de error igual, tasa de error igual): FAR y FRR son dos parámetros del mismo algoritmo; sistema, colocado en las mismas coordenadas. FAR disminuye a medida que aumenta el umbral y FRR aumenta a medida que aumenta el umbral. Por lo tanto deben tener una intersección. Este punto es el punto donde FAR y FRR son iguales bajo un cierto umbral. Es habitual utilizar el valor de este punto para medir el rendimiento general del algoritmo. Para un mejor algoritmo de huellas dactilares, se espera que bajo el mismo umbral, cuanto más pequeños sean FAR y FRR, mejor.