¿Qué métodos se recomiendan para analizar problemas complejos de toma de decisiones?
Se recomienda utilizar el método del árbol de decisión para analizar problemas complejos de toma de decisiones.
Definición:
El algoritmo de árbol de decisión es un método de aproximación del valor de una función discreta. Es un método de clasificación típico que primero procesa los datos, utiliza algoritmos inductivos para generar reglas legibles y árboles de decisión, y luego utiliza decisiones para analizar los nuevos datos. Básicamente, un árbol de decisión es el proceso de clasificar datos mediante una serie de reglas.
Clasificación y regresión:
También consta de selección de características, generación de árboles y poda, y puede usarse tanto para clasificación como para regresión.
El algoritmo CART consta de los dos pasos siguientes:
(1) Generación de árbol de decisión: genere un árbol de decisión basado en el conjunto de datos de entrenamiento. El árbol de decisión generado debe ser como lo más grande posible.
(2) Poda del árbol de decisión: utilice el conjunto de datos de verificación para podar el árbol generado y seleccionar el subárbol óptimo. En este momento, la función de pérdida mínima se utiliza como criterio de poda.
Principales ventajas:
El modelo es legible y la velocidad de clasificación es rápida. Durante el aprendizaje, los datos de entrenamiento se utilizan para establecer un modelo de árbol de decisión basado en el principio de minimizar la función de pérdida. Al predecir, los datos nuevos se clasifican utilizando el modelo de árbol de decisión.
Aprendizaje del método de árbol de decisión:
Objetivo:
Construir un modelo de árbol de decisión basado en un conjunto de datos de entrenamiento determinado para que pueda clasificar instancias correctamente. El aprendizaje del árbol de decisiones esencialmente resume un conjunto de reglas de clasificación a partir de un conjunto de datos de entrenamiento. Puede haber varios árboles de decisión que puedan clasificar correctamente los datos de entrenamiento, o puede que no haya ninguno.
Al elegir un árbol de decisión, debe elegir un árbol de decisión que sea menos inconsistente con los datos de entrenamiento y tenga una buena capacidad de generalización, y el modelo de probabilidad condicional seleccionado no solo debe tener una buena capacidad de generalización de los datos de entrenamiento; ajustar y predecir bien los datos desconocidos.
Función de pérdida:
Normalmente una función de máxima verosimilitud regularizada.
Estrategia:
Es la minimización de la función de pérdida como función objetivo.
Debido a que seleccionar el árbol de decisión óptimo entre todos los árboles de decisión posibles es un problema NP-completo, en realidad el aprendizaje de árboles de decisión generalmente utiliza métodos heurísticos para resolver aproximadamente este problema de optimización, y el árbol de decisión resultante es subóptimo. .
El algoritmo de aprendizaje del árbol de decisión suele ser un proceso de selección recursiva de las características óptimas y división de los datos de entrenamiento según las características para lograr la mejor clasificación para cada conjunto de subdatos. Incluye selección de características, generación de árboles de decisión y proceso de poda de árboles de decisión.