Red de conocimiento del abogados - Ley de patentes - ¿Cuáles son los algoritmos de resolución de árboles de decisión?

¿Cuáles son los algoritmos de resolución de árboles de decisión?

Los algoritmos de resolución de árboles de decisión incluyen: ID3, C4.5, CART, etc.

El algoritmo del árbol de decisión es un método de aproximación del valor de una función discreta. Es un método de clasificación típico que primero procesa los datos, utiliza algoritmos inductivos para generar reglas legibles y árboles de decisión, y luego utiliza decisiones para analizar los nuevos datos. Básicamente, un árbol de decisión es el proceso de clasificar datos mediante una serie de reglas.

El método del árbol de decisión se desarrolló por primera vez en la década de 1960 y finalizó a finales de la década de 1970. El algoritmo ID3 fue propuesto por J Ross Quinlan. El propósito de este algoritmo es reducir la profundidad del árbol. Sin embargo, se ignoró el estudio del número de hojas. El algoritmo C4.5 se ha mejorado sobre la base del algoritmo ID3 y ha realizado grandes mejoras en el procesamiento de valores faltantes de variables predictivas, tecnología de poda y reglas de derivación.

Es adecuado tanto para problemas de clasificación como para problemas de regresión. El algoritmo del árbol de decisión construye un árbol de decisión para descubrir las reglas de clasificación contenidas en los datos. Cómo construir un árbol de decisión con alta precisión y pequeña escala es el contenido central del algoritmo del árbol de decisión. La construcción del árbol de decisión se puede realizar en dos pasos.

El primer paso es generar un árbol de decisión: el proceso de generar un árbol de decisión a partir del conjunto de muestras de entrenamiento. En términos generales, el conjunto de datos de muestra de entrenamiento es un conjunto de datos con un historial y un cierto grado de exhaustividad basado en las necesidades reales, y se utiliza para el análisis y procesamiento de datos. El segundo paso es la poda del árbol de decisión: la poda del árbol de decisión es el proceso de probar, corregir y podar el árbol de decisión generado en la etapa anterior.

Método de construcción

La entrada a la construcción del árbol de decisión es un conjunto de ejemplos con etiquetas de categoría, y el resultado de la construcción es un árbol binario o un árbol múltiple. El nodo interno de un árbol binario generalmente se representa como un juicio lógico, como un juicio lógico en la forma a = aj, donde a es un atributo y aj son todos los valores del atributo: los bordes del árbol son los resultados de la rama del juicio lógico.

Los nodos internos de un multiárbol (ID3) son atributos, y las aristas son todos los valores del atributo. Hay tantas aristas como valores de atributo. Los nodos de hoja del árbol son todos etiquetas de categoría. Debido a una representación inadecuada de los datos, ruido o subárboles duplicados generados durante la generación del árbol de decisión, el árbol de decisión generado será demasiado grande.