Red de conocimiento del abogados - Ley de patentes - Análisis de conglomerados, análisis discriminante, análisis de componentes principales, análisis factorial

Análisis de conglomerados, análisis discriminante, análisis de componentes principales, análisis factorial

De: Daiiyadaitailiya (nicho de datos, marketing digital, nuevos medios)

La diferencia entre análisis de componentes principales y análisis factorial

1. Diferentes propósitos: Análisis factorial Considera muchas variables como una combinación lineal de algunos factores comunes que tienen un efecto sobre cada variable y factores especiales que solo tienen un efecto sobre una determinada variable. Por lo tanto, es necesario encontrar los pares de variables a partir de los datos. factores especiales que desempeñan un papel explicativo y sus coeficientes de combinación; el análisis de componentes principales solo busca varios grupos de nuevas variables no relacionadas (componentes principales) que pueden explicar la mayor parte de la variación en muchas variables desde la perspectiva de la generación espacial.

2. Las direcciones de expresión lineal son diferentes: el análisis factorial expresa variables como combinaciones lineales de factores comunes, mientras que el análisis de componentes principales expresa los componentes principales como combinaciones lineales de variables.

3. Diferentes supuestos: no se requieren supuestos en el análisis de componentes principales. Los supuestos del análisis factorial incluyen: no existe correlación entre varios factores comunes, no existe correlación entre factores especiales y no existe correlación; entre factores comunes. No existe correlación entre factores y factores especiales.

4. Existen diferentes métodos para extraer factores principales: El análisis factorial no solo incluye el método del componente principal, sino también el método de máxima verosimilitud y el método del factor del eje principal. diferente; componentes principales Solo se puede extraer mediante el método del componente principal.

5. Cambios en los componentes y factores principales: Cuando los valores propios de una determinada matriz de covarianza o matriz de correlación son únicos, los componentes principales generalmente son fijos en el análisis factorial, los factores no son fijos y pueden; ser rotado obtener diferentes factores.

6. El número de factores y el número de componentes principales: En el análisis factorial, el analista debe especificar el número de factores (SPSS lo establece automáticamente según ciertas condiciones, siempre que el factor con un valor propio mayor que 1 puede ingresar al Análisis), diferentes números de factores especificados conducen a diferentes resultados en el análisis de componentes principales, el número de componentes es fijo y generalmente hay varios componentes principales para varias variables (solo se explica la cantidad de información; según los componentes principales varía).

7. Función: en comparación con el análisis de componentes principales, el análisis factorial puede utilizar la tecnología de rotación para ayudar a explicar los factores, por lo que tiene más ventajas en la explicación y si desea convertir las variables existentes en algunas nuevas. Si desea ingresar al análisis posterior utilizando nuevas variables (las nuevas variables contienen casi toda la información de las variables originales), puede utilizar el análisis de componentes principales. Por supuesto, esta situación también se puede solucionar utilizando puntuaciones factoriales, por lo que esta distinción no es absoluta.

1. Análisis de conglomerados

Principio básico: dividir individuos (muestras) u objetos (variables) en categorías según el grado de similitud (distancia), de modo que los elementos de la misma categoría son La similitud es más fuerte que la similitud de elementos de otras clases. El propósito es maximizar la homogeneidad de elementos entre clases y la heterogeneidad de elementos entre clases.

Métodos de agrupamiento comúnmente utilizados: método de agrupamiento sistemático, método de K-medias, método de agrupamiento difuso, agrupamiento de muestras ordenadas, método de descomposición y método de unión.

Notas: 1. El método de agrupación del sistema puede clasificar variables o registros, mientras que el método K-means solo puede clasificar registros.

2. El método K-means requiere análisis. El personal lo sabe de antemano; en cuántas categorías se divide la muestra;

3. Los requisitos de normalidad multivariada y homogeneidad de la varianza de las variables son relativamente altos.

Campos de aplicación: segmentación de mercado, clasificación del comportamiento del consumidor, diseño de planes de muestreo, etc.

2. Análisis discriminante

Principio básico: A partir de varias clasificaciones conocidas Resumir los reglas en la situación (entrenar la función discriminante), y cuando ingresa una nueva muestra, determinar el grado de similitud entre ella y la función discriminante (criterios discriminantes como probabilidad máxima, distancia más cercana y desviación mínima).

Métodos de discriminación más utilizados: método de máxima verosimilitud, método de discriminación por distancia, método de discriminación de Fisher, método de discriminación de Bayes, método de discriminación por pasos, etc.

Notas: 1. Condiciones básicas para el análisis discriminante: el tipo de agrupación es de más de dos grupos, y las variables explicativas deben ser medibles.

2. Cada variable explicativa no puede ser otra explicación; Combinación lineal de variables (por ejemplo, cuando ocurren múltiples situaciones lineales, habrá problemas para discriminar pesos

3. Cada variable explicativa obedece a la distribución normal multivariada (si no, la regresión logística puede); utilizarse sustitución), y las matrices de covarianza de cada grupo de variables explicativas son iguales (cuando las matrices de covarianza de cada grupo son significativamente diferentes, las funciones discriminantes no son las mismas).

Relativamente hablando, incluso si la función discriminante viola las condiciones aplicables anteriores, es muy robusta y tiene poco impacto en los resultados.

Campos de aplicación: Predicen el crédito de los clientes, encuentran clientes potenciales (si son consumidores, si la empresa tiene éxito, si se contrata a estudiantes, etc.) y se utilizan clínicamente para el diagnóstico diferencial.

3. Análisis de componentes principales/análisis factorial

El principio básico del análisis de componentes principales: utilizar la idea de reducción de dimensionalidad (transformación lineal) para combinar múltiples indicadores con poca pérdida de información. Transformado en varios indicadores integrales (componentes principales), es decir, cada componente principal es una combinación lineal de las variables originales, y los componentes principales no están relacionados entre sí, de modo que los componentes principales tienen un rendimiento superior al de las variables originales ( componentes principales Se deben conservar más de 90 informaciones de las variables originales), para lograr el propósito de simplificar la estructura del sistema y captar la esencia del problema.

Principios básicos del análisis factorial: utilizando la idea de reducción de dimensionalidad, a partir del estudio de las dependencias internas de la matriz de correlación de variables original, algunas variables con relaciones intrincadas se reducen a unos pocos factores integrales. (El análisis factorial es una extensión de los componentes principales. En comparación con el análisis de componentes principales, tiende más a describir la correlación entre las variables originales)

Método para resolver los componentes principales: a partir de la matriz de covarianza (la matriz de covarianza se conoce), a partir de la matriz de correlación (la matriz de correlación R es conocida).

(En la investigación real, la matriz de covarianza general y la matriz de correlación se desconocen y deben estimarse a través de datos de muestra)

Métodos para resolver cargas factoriales: método del componente principal, método del factor del eje principal , método de máxima verosimilitud, método de mínimos cuadrados, método de extracción de factores.

Notas: 1. Cuando los resultados obtenidos al resolver los componentes principales basados ​​en la matriz de covarianza y la matriz de correlación son inconsistentes, se debe seleccionar adecuadamente un determinado método.

2. Para; medición Para datos cuyas unidades o rangos de valores sean de la misma magnitud, se puede calcular directamente la matriz de covarianza para indicadores con diferentes unidades de medida o cuyos rangos de valores sean muy diferentes entre sí, se debe considerar la estandarización de los datos, y luego la se puede calcular la matriz de covarianza Componente principal;

3. El análisis de componentes principales no requiere que los datos provengan de una distribución normal;

4. Al seleccionar las variables iniciales para el análisis, se debe prestar especial atención se debe prestar atención a si hay múltiples variables en las variables originales ** *Problema lineal (la raíz característica mínima es cercana a cero, lo que indica la existencia de múltiples problemas lineales).

5. En el análisis factorial no existe correlación entre factores comunes, factores especiales y factores comunes y factores especiales.

Campos de aplicación: Resolver *** problemas lineales, evaluar la validez estructural de cuestionarios, encontrar estructuras potenciales entre variables y confirmar estructuras internas.

4. Análisis de correspondencia/análisis de escala óptima

Principio básico: utilice la idea de reducción de dimensionalidad para simplificar la estructura de datos y procesar las filas y columnas de la tabla de datos en el Al mismo tiempo, busca representar la relación entre filas y columnas en una tabla de datos con gráficos de baja dimensión.

Análisis de correspondencia: se utiliza para mostrar la relación entre variables (dos/múltiples categorías) (es mejor cuando el número de categorías de variables es grande

Análisis de escala óptima: puede); se puede realizar simultáneamente Analiza la relación entre múltiples variables El tipo de variables puede ser multicategoría desordenada, multicategoría ordenada o variables continuas, y brinda soporte para el análisis de preguntas de opción múltiple.

5. Análisis de correlación canónica

Principio básico: tomar prestada la idea de reducción de dimensionalidad del análisis de componentes principales para extraer componentes principales de dos conjuntos de variables y extraer los componentes principales de los dos conjuntos de variables El grado de correlación entre ellos alcanza el máximo, mientras que los componentes principales extraídos del mismo grupo no están correlacionados entre sí.