Red de conocimiento de abogados - Derecho de sociedades - ¿Cómo realizar un análisis de conglomerados después del análisis factorial?

¿Cómo realizar un análisis de conglomerados después del análisis factorial?

1. Descripción del caso

1. Antecedentes del caso

Para estudiar la clasificación del comportamiento de los usuarios en plataformas de vídeos cortos, la encuesta recopiló 200 datos, 20 de las cuales se pueden dividir en cinco dimensiones de la marca: actividades de marca, portavoz de la marca, responsabilidad social, patrocinio de la marca e intención de compra. Los datos de los casos también incluyen características individuales básicas como género, edad, educación, ingresos mensuales, etc. Así como la visualización y consumo de plataformas de vídeos cortos. Hay 200 muestras de datos.

2. Propósito del análisis

Quiero realizar un análisis de conglomerados basado en los datos encuestados por la plataforma de videos cortos. Dado que hay demasiados elementos de análisis, primero se realiza un análisis factorial y. las puntuaciones de los factores obtenidos se concluyen finalmente después del análisis de conglomerados, la denominación y el análisis cruzado con otras características individuales básicas, como el género.

2. Operación de SPSSAU

Debido a que la dimensión predeterminada del caso es 5, arrastre el elemento de análisis al cuadro de análisis de la derecha, despliegue y seleccione el número de factores como 5 y verifique el factor Puntuación.

3. Resultados del análisis factorial

1. Requisitos previos

Valor KMO y prueba de esfericidad de Bartlete

Utilice el análisis factorial para realizar investigaciones de concentración de información Primero analice si los datos de la investigación son adecuados para el análisis factorial. Como se puede ver en la tabla anterior: el valor KMO es 0,929, mayor que 0,6, lo que cumple con los requisitos previos del análisis factorial, lo que significa que los datos se pueden utilizar para. investigación de análisis factorial. Y los datos pasaron la prueba de esfericidad de Bartlett (p lt; 0,05), lo que indica que los datos de la investigación son adecuados para el análisis factorial. A continuación, verifique si es necesario ajustar los elementos del análisis.

2. La relación entre factores y elementos de medición

Cuando el análisis factorial se utiliza para condensar factores, generalmente pasa por múltiples ciclos repetidos, elimina elementos irrazonables y repite el ciclo muchas veces. Finalmente obtenga resultados razonables. Generalmente dividimos las situaciones que ocurren en dos tipos, una es "prestigiosa" y la otra es "enredada", las cuales se describen en detalle a continuación.

(1) "Leading the Crown"

En circunstancias normales, si la correspondencia entre los 20 ítems y los 5 factores no es consistente con el conocimiento profesional, como el primer ítem Este elemento pertenece al segundo factor pero está clasificado en el primer factor. En este momento, significa que el elemento debe eliminarse, lo cual es un fenómeno de "tomar la corona y dejarla en paz". Por ejemplo, "Intención de compra 1" e "Intención de compra 4" en el caso.

(2) "Enredado"

Además del fenómeno de "tomar la corona y dejar ir a otros", a veces existe el fenómeno de "enredado". el "Patrocinio de marca 4" en el caso que se puede atribuir es el factor 2, y también se puede atribuir al factor 4. Esta situación es relativamente normal (llamada "enredada") y debe abordarse en función de la situación real. Se puede eliminar o no. En este momento, el análisis tendrá cierta subjetividad.

Paso 1: Primer análisis

En este ejemplo, hay 20 elementos de análisis. Estos 20 elementos de análisis se dividen en 5 dimensiones, por lo que puede decirle activamente a SPSSAU que estos 20 elementos son cinco. de lo contrario, SPSSAU determinará automáticamente cuántos factores hay (normalmente el juicio automático del software es muy diferente de la situación real, por lo que se recomienda establecer activamente el número de factores). Como se muestra a continuación:

Como se puede ver en la figura anterior:

Actividades de marca 1-4, estos cuatro elementos corresponden al factor 1 y los valores del coeficiente de carga del factor ​​son todos superiores a 0,4, lo que demuestra que estos cuatro ítems deben pertenecer a la misma dimensión, es decir, lógicamente, los cuatro ítems de actividades de marca 1-4 no parecen ser "uno de los mejores". Los cuatro valores de los ítems de análisis pertenecen al factor 1 y no existe "entrelazamiento" en ninguna dimensión.

Los elementos del portavoz de marca 1-4***4 corresponden todos al factor 1, pero el portavoz de marca 3 y el portavoz de marca 4 también pertenecen al factor 3. Están "enredados" y no serán tratados por el momento.

"Responsabilidad Social 1-4" *** 4 ítems, estos 4 ítems corresponden todos al factor 1 o factor 3. Estos 3 ítems no tienen el problema de "tomar el trabajo", pero sí Problemas "enredados".

"Patrocinio de Marca 1-4" *** 4 ítems, todos ellos corresponden al factor 2. "Patrocinio de Marca 4" corresponde tanto al factor 2 como al factor 4. Hay "entrelazamiento" y debe ser dado.

Hay cuatro ítems en “Intención de Compra 1-4”. Cuando corresponden al factor 4, aparecerá “Intención de Compra 1”. Si corresponden al factor 5, “Intención de Compra”. 4" aparecerá "Intención de Compra 4".

Al resumir el análisis anterior, se puede ver que los dos elementos "intención de compra 1" o "intención de compra 4" parecen "sin precedentes", y uno de estos dos elementos debe eliminarse primero; los otros elementos parecen ser un fenómeno "enredado", no lo abordaremos por el momento (solo preste atención). Esta vez, la "Intención de compra 1" se eliminará y se volverá a analizar (también es posible eliminar la "Intención de compra 4", que lo decide el investigador).

Paso2: Segundo análisis

Después de eliminar "Intención de compra 1", realiza el segundo análisis. Los resultados son los siguientes:

En la imagen de arriba, podemos ver que "Brand Portavoz 3" y "Marca Portavoz 4" tienen el fenómeno de "ocupar un lugar de honor" y también deberían eliminarse. como "Actividades de marca 1-4" y "Portavoz de marca 1-2". Cuando ocurre el fenómeno del "entrelazamiento", no lo abordaremos por el momento, pero debemos prestarle atención. En resumen, se puede ver que "Brand Portavoz 3" y "Marca Portavoz 4" deben eliminarse primero y luego analizarse nuevamente por tercera vez.

Paso 3: El tercer análisis

Después de eliminar "Brand Portavoz 3" y "Brand Portavoz 4", los resultados del análisis nuevamente son los siguientes:

Como se puede ver en la imagen de arriba, "Portavoz de marca 1-2" puede aparecer tanto en el factor 1 como en el factor 5. Sin embargo, considerando que actualmente solo quedan 2 elementos en el factor 5, es aceptable, y "responsabilidad social 1- 4" son iguales. Finalmente, se encontraron cinco ítems. factores, y la correspondencia entre ellos y los ítems es buena. Se acabó el análisis factorial.

3. Resultados después del ajuste factorial

(1) Prueba de KMO y Bartlett

Utilice el análisis factorial para realizar una investigación de concentración de información, primero analice si los datos de la investigación son Al realizar un análisis factorial adecuado, se puede ver en la tabla anterior que el valor KMO es 0,915, que es mayor que 0,6, lo que cumple con los requisitos previos del análisis factorial, lo que significa que los datos se pueden utilizar para la investigación del análisis factorial. Y los datos pasaron la prueba de esfericidad de Bartlett (plt; 0,05), lo que indica que los datos de la investigación son adecuados para el análisis factorial.

(2) Tabla de coeficientes de carga factorial

En la figura anterior, podemos ver que el "Portavoz de marca 1-2" puede aparecer en el factor 1 y en el factor 5 al mismo tiempo. pero considerando que el factor 5 actualmente es solo, los 2 ítems restantes indicaron que eran aceptables, así como "Responsabilidad Social 1-4" fueron iguales Finalmente se encontraron cinco factores, los cuales tenían buenas correspondencias con los ítems respectivamente. Los ítems de análisis no necesitan mayor ajuste. A continuación, verifique la cantidad de factores extraídos y la concentración de la información.

4. Extracción de factores

(1) Tasa de explicación de la varianza

La tasa de explicación de la varianza puede explicar cuánta información de datos originales contienen los factores Cuanto mayor es la varianza. tasa de explicación, mayor es la tasa de explicación de la varianza y más información contiene un factor. En el análisis factorial, nos centramos principalmente en la parte de datos rotados. La figura anterior puede mostrar que entre los 17 indicadores, las tasas de explicación de la varianza de los cinco factores son 26,400%, 21,703%, 19,013%, 15,359% y 7,087% respectivamente. La tasa de explicación de la varianza acumulada es 89,563% sumando los cinco factores. La tasa de explicación de la varianza acumulada. No existe un estándar fijo para este valor; generalmente, cualquier valor superior a 60 es aceptable. A continuación se analizará el papel que desempeña la raíz característica en la extracción de factores.

(2) Raíz característica

La raíz característica es generalmente el grado de contribución de cada factor antes de la rotación del índice. La suma de este valor coincide con el número de elementos. Cuanto mayor sea el valor, mayor será la contribución del factor. Por supuesto, el análisis factorial generalmente requiere un juicio integral basado en el propio conocimiento profesional. Incluso si el valor raíz característico es menor que 1, aún se pueden extraer factores. Al realizar un análisis factorial, el investigador no preestablece el número de factores y el sistema dividirá según la raíz característica "mayor que 1".

Debido a que el número preestablecido de factores en este caso es 4 antes del análisis, también se puede analizar. Además de las raíces características, SPSSAU también proporciona un gráfico de grava más intuitivo para ayudar a juzgar.

(3) Gráfico de grava

Como se puede ver en la figura, el eje horizontal representa el número de indicadores y el eje vertical representa el valor de la raíz característica cuando los primeros cinco. se extraen los factores, la raíz característica Los cambios de valor son más obvios y contribuyen más a explicar las variables originales cuando se extraen los cinco factores y posteriores, los cambios de la raíz característica son relativamente suaves y la contribución a las variables originales es relativamente pequeña; Se puede ver que la extracción de los primeros cinco factores tiene un impacto relativamente pequeño en las variables originales. El gráfico de pedregal sólo ayuda a tomar decisiones sobre el número de factores. También es posible analizar tres factores utilizando este gráfico.

En este caso se extraen 5 factores en base al conocimiento profesional. Si no hay un número preestablecido de factores, el sistema también puede tomar decisiones por defecto. Después de la extracción, se debe observar el grado de concentración de información de los factores.

5. Concentración de información

Tabla de coeficientes de carga de factores rotados

El coeficiente de carga de factores rotados se puede utilizar para determinar la correspondencia entre factores y elementos si es necesario. Para prestar atención a la situación de "tomar el trabajo" o "enredarse", los resultados anteriores ya son los resultados después del procesamiento, así como la coherencia absoluta de cada elemento. Si los valores absolutos de los coeficientes de carga de múltiples factores correspondientes a un elemento de análisis son todos inferiores a 0,4, considere eliminar el elemento. En el análisis anterior, todos son mayores que 0,4. Por lo tanto, no es necesario eliminar los ajustes.

Se puede ver en los resultados que 14 ítems se condensaron mediante análisis factorial y se condensaron en cuatro factores. La relación correspondiente entre factores y elementos es la siguiente:

Entre ellas, las actividades de marca 1 a 4 tienen cargas más altas en el factor 1, lo que indica que el factor 1 puede explicar estos elementos de análisis, que reflejan principalmente la plataforma de videos cortos. desempeño de las actividades de marca en comunicación de marca; el patrocinio de marca 1-4 tiene cargas más altas en el factor 2, lo que refleja principalmente las actividades de patrocinio de marca en comunicación de marca en plataformas de videos cortos. La responsabilidad social 1-4 tiene cargas más altas en el factor 3, principalmente; reflejan la responsabilidad social de las plataformas de videos cortos para la comunicación de la marca. La intención de compra 2-4 tiene cargas más altas en el factor 4, reflejan principalmente la intención de compra de un determinado usuario de marca en la plataforma de videos cortos, el portavoz de la marca 1-2 tiene una carga más alta; en el factor 5, que refleja principalmente la situación de audiencia del portavoz utilizado por una determinada marca en la plataforma de vídeos cortos.

En la tabla anterior, podemos ver que los valores de identidad correspondientes a todos los elementos de la investigación son superiores a 0,4, lo que significa que existe una fuerte correlación entre los elementos y los factores de la investigación, y Los factores pueden extraer información de manera efectiva. Porque el propósito de este caso es obtener puntajes de los factores para luego realizar análisis de conglomerados y nombrarlos para obtener conclusiones efectivas para la toma de decisiones de la empresa. Por lo tanto, no entraremos en detalles sobre los pesos del análisis factorial. Si quieres saber más, puedes hacer clic en el enlace al final del artículo para verlo.

6. Puntuación factorial

El análisis factorial suele ser un paso de preprocesamiento y el análisis posterior debe combinarse con propósitos de investigación específicos, como análisis de regresión, análisis de conglomerados, etc. En este momento, es posible que necesite utilizar puntuaciones de factores. Regrese a la página de análisis y marque [Puntuación de factores] para generar puntuaciones de factores. Debido a que el propósito de este estudio de caso es utilizar puntuaciones de factores para el análisis de conglomerados, debe marcar [Puntuación de factores] y nombrar las puntuaciones de factores.

Las cinco dimensiones se denominan actividades de marca, patrocinio de marca, responsabilidad social, intención de compra y portavoz de la marca de la siguiente manera:

A continuación, se realiza un análisis de conglomerados utilizando puntuaciones factoriales. Se explicará desde la situación básica del clustering, el análisis de varianza, la representación gráfica de los efectos del clustering y la denominación de clusters.

4. Resultados del análisis de conglomerados

Primero, verifique si la distribución de los datos es uniforme. En términos generales, la proporción de muestras en cada categoría debe distribuirse uniformemente si una determinada categoría está sobrerrepresentada. Si es demasiado grande o demasiado pequeño, considere restablecer el número de categorías de agrupación.

1. Situación básica de agrupamiento

Utilice el análisis de conglomerados para clasificar muestras y utilice el método de análisis de conglomerados Kmeans. Como se puede ver en la tabla anterior: finalmente se obtienen 3 tipos de grupos. al agrupar, las proporciones de estos tres grupos son 42,50, 14,50 y 43,00 respectivamente. En general, la distribución de los tres tipos de personas es relativamente uniforme, lo que indica que el efecto general de agrupación es mejor.

2. Análisis de varianza

Análisis cruzado de categorías de conglomerados y elementos de análisis de conglomerados. Si se muestra significativo (plt; 0,05), significa que se han obtenido muestras de diferentes categorías mediante agrupación. Hay diferencias obvias en los mismos indicadores. Esto muestra que las cinco variables que participan en el análisis de conglomerados pueden distinguir bien las categorías y que las diferencias entre las categorías son lo suficientemente grandes. Cuanto menor es el valor de p, mayor es la diferencia entre las categorías.

Para comparar las medias de diferentes categorías, además de ver el análisis de varianza, también puede ver la comparación de importancia de agrupar elementos.

Si un indicador es de poca importancia, considere eliminarlo. A partir de los resultados anteriores, todos los elementos de la investigación muestran importancia, lo que indica que las características entre diferentes categorías son obviamente diferentes y el efecto de agrupación es bueno.

3. Ilustración del efecto de agrupamiento

El efecto de agrupamiento se puede mostrar visualmente a través de un diagrama de dispersión, y dos indicadores de agrupamiento cualesquiera se pueden usar para dibujar un diagrama de dispersión (en la visualización Módulo Gráfico de dispersión) y coloque el elemento 'Categoría de agrupamiento' en el cuadro 'Diferenciación de color (clasificación) [Opcional] para ver el efecto de dispersión de los indicadores por pares en diferentes categorías.

Se puede encontrar en la figura que existen diferencias obvias entre cada categoría y que el efecto de agrupación es mejor. Se descubrió que la primera categoría de actividades de marca y portavoces de marca es relativamente grande y se recomienda prestarle más atención durante la investigación.

4. Nombrar categorías de clústeres

Los investigadores también pueden observar la tendencia del gráfico de líneas y nombrarlo. La referencia es la siguiente:

Como se puede ver en la figura anterior, el primer grupo de personas obtiene puntuaciones relativamente altas en cada indicador y pueden denominarse "entusiastas de la marca". El segundo grupo de personas tiene puntuaciones más altas en responsabilidad social e intención de compra, pero puntuaciones más bajas en portavoz de la marca y actividades de patrocinio de la marca se encuentran entre los dos y pueden denominarse "seguidores de la marca". La tercera categoría tiene puntuaciones más bajas en todos los aspectos y se denomina "Marca apática".

Nombra las tres categorías: SPSSAU ‘Procesamiento de datos’ – ‘Etiquetado de datos’.

5. Análisis de diferencias después de la agrupación

Después de obtener las categorías de agrupación, es necesario comparar las diferencias entre diferentes categorías de grupos, como las diferencias en "género" y "edad"; "sexo. El análisis cruzado más común con información personal puede obtener la distribución de diferentes tipos de personas, para realizar sugerencias y medidas específicas en función de diferentes grupos. En este caso, la categoría de agrupamiento y la "edad" se analizan de forma cruzada, como se explica a continuación.

Como se puede ver en la tabla anterior, la prueba de chi-cuadrado (análisis cruzado) se utiliza para estudiar la diferencia entre la edad y la categoría de grupo ***1 elemento. Se puede observar que las muestras de diferentes edades tienen diferentes efectos en la categoría de agrupamiento ***1 muestra significancia (plt; 0,05), lo que significa que las muestras de diferentes edades muestran diferencias en la categoría de agrupamiento ***1 sugerencias específicas. se puede combinar con los porcentajes entre paréntesis para comparar.

La edad muestra un nivel de significancia de 0,05 para la categoría de agrupamiento (chi=14,335, p=0,026lt; 0,05). Al comparar las diferencias porcentuales, se puede ver que la proporción de personas entre 26 y 30 años. elegir entusiastas de la marca es 49,21, lo cual es obviamente más alto que el nivel promedio de 42,50. La proporción de personas de entre 20 y 25 años que eligen la conformidad con la marca es 26,23, que será significativamente mayor que la proporción de personas de 14,50 años. 36-40 que eligen la indiferencia hacia la marca es 53,33, que será significativamente mayor que el nivel promedio de 43,00. Aquellos entre 31 y 35 años. La proporción de quienes eligen la indiferencia hacia la marca es 49,18, que será significativamente mayor que el nivel promedio de 43,00. Se pueden tomar más decisiones basadas en los resultados de los datos. También se puede realizar un análisis cruzado con "género", "educación", etc. No hay mucha descripción aquí.

5. Otros

1. Centro de agrupación

En general, el efecto de agrupación es bueno

La tabla anterior muestra los clústeres después de la iteración. Para los cambios en el centro, los datos están estandarizados. En cuanto a si los datos deben estandarizarse, el algoritmo de agrupación determina la categoría en función de la distancia, por lo que generalmente debe estandarizarse antes de seleccionar SPSSAU para la estandarización. Una vez estandarizados los datos, el tamaño relativo de los datos todavía tiene significado (por ejemplo, cuanto mayor es el número, mayor es el PIB), pero el significado real desaparece.

2.SSE

El indicador SSE del centro de conglomerados se explica a continuación:

Al realizar el análisis de conglomerados de Kmeans, SPSSAU genera de forma predeterminada la suma de los cuadrados errores Valor SSE. Este valor se puede utilizar para medir la distancia entre cada punto y el punto central. En teoría, se espera que cuanto más pequeño sea, mejor, y si los mismos datos tienen más categorías de agrupación, el valor SSE será más pequeño. es inconveniente si hay demasiadas categorías de agrupación analizadas). El índice SSE se puede utilizar para ayudar a juzgar el número de categorías de conglomerados. Se recomienda registrar el valor de SSE en diferentes números de categorías de conglomerado y luego analizar la reducción del valor de SSE. de 2 grupos a 3 6 categorías, la reducción de valor de SSE es obviamente grande, por lo que es mejor elegir 3 categorías de agrupación en este momento. Por ejemplo, si el número de conglomerados en este caso es 2, el valor de SSE es 872,226, pero cuando el número de conglomerados es 3, el valor de SSE es 779,077 y se encuentra que el SSE disminuye significativamente. Por tanto, se puede ver que es mejor elegir 3 categorías de agrupación.

6. Resumen

Este caso combina regresión lineal y análisis de conglomerados. Dado que hay demasiados elementos de análisis, se realiza primero el análisis factorial. En una situación de "tomar la corona y dejar atrás", los factores deben ajustarse. Después de ajustar los factores, se analiza la extracción de factores y la concentración de información, se obtienen las puntuaciones de los factores y se encuentra. que los resultados preliminares son buenos Los resultados se muestran gráficamente y se puede ver que existen diferencias obvias entre cada categoría. Después de nombrar las categorías, realice un análisis cruzado para encontrar las diferencias entre categorías y edades y describirlas en detalle. para aportar conclusiones efectivas para la empresa o plataforma en decisiones posteriores.