Red de conocimiento del abogados - Bufete de abogados - Introducción y comparación del modelo GWAS y el modelo GS

Introducción y comparación del modelo GWAS y el modelo GS

Recientemente leí mucha información sobre genómica estadística y pensé que la entendía, pero en realidad me vi obligado a hacerlo. En realidad, se debe a que la base de las estadísticas es tan pobre que parece incomprensible y engañosa. Registre su comprensión y comente.

GWAS es un análisis de correlación entre fenotipo y genotipo, pero ¿qué método estadístico se utiliza para esta correlación?

Desarrollo del modelo GWAS;

Si la proporción real es consistente con la proporción de segregación esperada, en caso contrario, se considera que el gen está relacionado con el fenotipo. Es computacionalmente intensivo.

Primero calcule la correlación entre genes y fenotipos (como Pearson), luego convierta r en valor t y realice la prueba t. La cantidad de cálculo es pequeña.

El genotipo x y el fenotipo y retroceden directamente, es decir, y = x b+e.

Donde Y es el fenotipo, X es la variable integral de SNP, matriz Q y gran media, y E es el residual.

En el modelo GLM, si dos fenotipos son muy diferentes, pero la población en sí contiene otras diferencias genéticas (como región, etc.), aquellas diferencias genéticas que no están relacionadas con este fenotipo también afectarán a la correlación. El modelo MLM puede establecer el impacto de la estructura poblacional como covarianza y corregir esta trayectoria. Además, la relación ancestral común entre materiales también conducirá a una correlación no vinculada, que puede corregirse agregando la matriz de parentesco como un efecto aleatorio, es decir, y = Xb + Zu + e, z es la matriz de parentesco, u es el valor genético individual, y otros Igual que GLM.

GLM es un modelo de efectos fijos. Además de los efectos fijos, MLM también agrega efectos aleatorios, concretamente la matriz de parentesco. Los llamados efectos fijos son limitados, fáciles de controlar y se centran en efectos laterales; sin embargo, los efectos aleatorios tienen muchos niveles y están relacionados con los grupos detrás de los niveles (como la media, la varianza, etc.). ).

Hay un sentimiento que sólo se puede entender pero no se puede expresar. Busqué en Baidu y pensé que se podría explicar: modelo de efectos aleatorios.

La corrección de MLM es demasiado estricta y filtrará algunos marcadores SNP verdaderamente relevantes, por lo que el propósito del modelo CMLM es volver a detectar esos marcadores SNP falsos negativos.

Este método consiste en agrupar individuos según la similitud de sus relaciones de parentesco y luego utilizar los grupos comprimidos para reemplazar a los individuos originales como covariables. Las relaciones genéticas de los individuos de una población son las mismas.

La pregunta es, ¿qué SNP debería elegir CMLM para calcular la matriz de relaciones genéticas? La respuesta es que es mejor utilizar todos los SNP asociados con el fenotipo (y excluir los SNP detectados) para construir una matriz de parentesco, que es Super (asentamiento de realeza bajo relaciones exclusivas progresivas).

QTN (SNP de rasgo cuantitativo) es el SNP que controla el QTL.

El cuello de botella de GWAS es la velocidad de cálculo y la precisión estadística. FarmCPU puede mejorar la velocidad y la precisión. En primer lugar, la matriz de parentesco de efectos aleatorios se convierte en la matriz SNP de efectos fijos asociada (matriz S/matriz QTN), lo que acelera enormemente el cálculo. En segundo lugar, utilizando la matriz QTN como covariable, se realizó nuevamente un análisis de correlación para mejorar la precisión.

Tanto SUPER como FarmCPU consideran bin (una sección, como 10 kb) como la unidad SNP en lugar de un único SNP.

Blink es una versión avanzada de GWAS, también diseñada para mejorar la velocidad y la precisión. Como se muestra en la siguiente figura: primero use el modelo GLM anterior para obtener qtn y luego use el GLM de la derecha como covariable para detectar SNP. El SNP obtenido determina la información de qtn en función de la información de LD (seleccione el tamaño del contenedor correspondiente). basado en la posición real del cromosoma). Además, el GLM de la izquierda utiliza la estrategia BIC (criterio de información bayesiano, criterio de información bayesiano) para detectar la precisión de qtn, eliminar partes falsas, retener el qtn real y realizar un bucle continuo de este proceso hasta que se detecten todos los SNP asociados (qtn). .

Resumen del modelo:

Esto se basa en el curso de genómica estadística de Zhang Zhiwu, por lo que la atención se centra en el modelo desarrollado por su grupo de investigación.

Software de uso común para GWAS:

Desarrollo del modelo GS;

Cuando el número de genes que controlan el fenotipo es relativamente pequeño y la heredabilidad es relativamente alta, se puede utilizar una pequeña cantidad de marcadores para predecir bien el fenotipo.

Utilice relaciones genéticas individuales para construir una matriz de covarianza y luego prediga fenotipos basados ​​en valores genéticos individuales.

Si reemplaza la matriz de relaciones genéticas de covariables construida en GBLUP con una matriz de relaciones compuesta por marcadores SNP, construye un modelo y luego predice individuos, esta es la idea de rrBLUP.

Es decir, cambie el modelo y=Xb+Zu+e a y=Xb+Ms+e:

donde m es la matriz construida por SNP (reemplazando la matriz de parentesco individual Z), S es la marca (sustituto de la U individual).

RrBLUP supone que todos los efectos de los marcadores se ajustan a una distribución normal y que la varianza (σ 2) de los efectos de los marcadores es igual, lo que puede ser inconsistente con el valor del efecto real del gen.

En este momento se introduce el método de análisis bayesiano: se desconoce el número de genes que se espera que controlen el fenotipo y se desconoce la distribución de los valores de los efectos de los genes. Según el número de genes y la distribución de los valores de efecto de los genes, se establecen diferentes modelos bayesianos, como BayesianoA, B, C, Cπ, LASSO, etc.

La principal diferencia radica en: si el efecto de la etiqueta se ajusta a la misma distribución; si todas las etiquetas tienen valores de efecto; ¿a qué distribución obedece la varianza del efecto de la etiqueta?

Para conocer los supuestos y distribuciones de diferentes modelos bayesianos, consulte los tweets anteriores: # GS Document Application of Genomic Selection Technology in Agriculture Animal Breeding.

Los diferentes métodos bayesianos se representan intuitivamente mediante gráficos. π en la figura siguiente representa la proporción de efectos no marcados.

Las varianzas de todos los efectos de los marcadores en la regresión de crestas son iguales; el bayesiano A significa que todos los marcadores tienen variaciones de efectos, pero diferentes marcadores tienen diferentes variaciones de efectos. El bayesiano B marca parcialmente la varianza efectiva y al mismo tiempo; Hay diferencias; el Cπ bayesiano es un efecto de etiquetado parcial con varianzas, siendo todas las varianzas iguales.

Paquetes r gratuitos de código abierto de uso común para GS:

Si GWAS usa modelos MLM y sus versiones avanzadas, en realidad es el mismo modelo que GS.

Es solo que GWAS se enfoca en extraer sitios importantes y se enfoca en efectos fijos. Además, los efectos fijos son la misma fracción que controla para diferentes individuos.

Aunque los dos métodos tienen el mismo modelo, tienen diferentes direcciones de aplicación, por lo que se consideran tecnologías diferentes, pero en realidad son lo mismo. Podemos combinar los dos, por ejemplo, primero usar GWAS para encontrar sitios importantes y luego agregarlos a los efectos fijos de GS, lo que puede hacer que la predicción sea más precisa. O hay demasiadas etiquetas y no desea filtrar algunas etiquetas irrelevantes. Puede filtrar combinando los resultados de GWAS.

De la combinación de GS y GWAS han surgido algunos modelos y algoritmos, como SSGBLUP, GS+re-GWAS, GS+historical GWAS, etc.

Confirmación:

Gracias al Sr. Zhang Zhiwu por desarrollar los últimos tutoriales y herramientas para nosotros, y gracias a Zhang Fan por el resumen del curso.

Referencia del tutorial PPT: ##Genómica estadística: 2020