Red de conocimiento de abogados - Derecho de sociedades - Regularización L1 y regularización L2

Regularización L1 y regularización L2

Aquí primero debemos comprender el principio de minimización del riesgo estructural:

Lo que llamamos regularización es agregar algunos términos de regularización sobre la base de la función de pérdida original, o se llama Término de penalización por complejidad del modelo. Tomemos como ejemplo nuestra regresión lineal.

Objetivo de optimización (función de pérdida):

Agregar término regular L1 (regresión de lazo):

Agregar término regular L2 (regresión de cresta):

p>

A continuación, debemos comprender cómo cambia la solución final al resolver la función objetivo después de agregar el término de regularización.

Entendámoslo desde la perspectiva de la imagen:

Suponiendo que X es una muestra bidimensional, entonces los parámetros a resolver también son bidimensionales. La siguiente figura se denomina gráfico de contorno de la curva de función original. Para cada grupo de líneas de contorno (mismo color) de la función objetivo en la figura, los valores deben ser los mismos.

Veamos la imagen de la función después de agregar los términos regulares L1 y L2:

Comparando las dos imágenes, podemos ver:

Veamos estos pasos:

La prueba de la regularización L2 (regresión de crestas) es similar. Pero la conclusión es que la regularización L1 es más fácil de obtener soluciones dispersas que la regularización L2.

Resumamos que la razón por la que se puede reducir la regularización es que la regularización es una implementación estratégica de minimización del riesgo estructural.

Agregue un término regular a la función de pérdida. La función objetivo recién obtenida h = f normal requiere una compensación entre f y normal. Si todavía solo optimizamos f como antes, entonces lo normal será relativamente grande y h no podrá obtener la solución óptima. Por lo tanto, se puede ver que agregar términos regulares puede simplificar la solución, lo cual es consistente con la teoría de la navaja de Occam y también es consistente con el análisis de sesgo y varianza (la varianza representa la complejidad del modelo), al reducir la complejidad del modelo; En el modelo, se puede obtener una menor generalización del error y reducir el sobreajuste.

Eche un vistazo a la diferencia entre la regularización L1 y la regularización L2:

La regularización L1 consiste en agregar la norma L1 después de la función de pérdida, lo que facilita la búsqueda de soluciones dispersas. La regularización L2 consiste en agregar el cuadrado norma L2 después de LF. En comparación con la regularización L1, la solución obtenida es más suave (no escasa), pero también puede garantizar que haya más dimensiones cercanas a 0 (no iguales a 0) en la solución. lo que reduce la complejidad del modelo.