Tema uno de la serie de ARN unicelular: Detalles importantes del control de calidad en la secuenciación de ARN unicelular (Parte 2)
La secuenciación de ARN unicelular es un tema candente en la actualidad. La secuenciación de ARN unicelular puede brindarnos información que antes no estaba disponible mediante la secuenciación masiva de ARN, lo cual es extremadamente valioso para estudiar la biología del desarrollo, la biología de los tumores, la inmunidad, etc.
El núcleo de la secuenciación unicelular es la reducción y agrupación de la dimensionalidad de t-SNE. Por lo que el control de calidad antes de realizar estas tareas está relacionado con el éxito o fracaso de todo el análisis. En este artículo, continuaré hablándoles sobre el control de calidad unicelular.
El núcleo de todo el análisis de células individuales es en realidad determinar los tipos/linajes de células. El paso anterior es el control de calidad de los datos (QC, control de calidad). Después de obtener la matriz de expresión, realizaremos la normalización de datos, la detección del conjunto de genes, la eliminación del efecto por lotes, etc., luego usaremos PCA y t-SNE para la reducción de dimensionalidad. Si se encuentran algunos problemas durante este proceso, eliminaremos algunas celdas y luego realizaremos nuevamente el control de calidad y el análisis de reducción de dimensionalidad.
En términos generales, los puntos de control incluyen lo siguiente:
Una tasa de comparación relativamente baja o una pequeña cantidad de lecturas pueden ser el motivo de la construcción de la base de datos. El menor número de lecturas puede estar relacionado con la formación de más dímeros de cebadores, mientras que la baja tasa de alineación suele ser el motivo de la construcción de la biblioteca.
Si hay muy pocas secuencias de ARN con picos, puede indicar directamente que falló la construcción de la biblioteca. Si el aumento es normal pero la secuencia de ARN de la célula es menor, puede deberse a que la célula en sí es muy pequeña o a que la célula se dañó antes de que se construyera la biblioteca.
El número de genes detectados está directamente relacionado con el tamaño celular. Si se detectan demasiados genes (UMI), es probable que haya varias células en la gota, pero no se puede descartar que la célula sea muy grande. Como se muestra en la figura siguiente, demasiados o muy pocos genes son anormales.
En términos generales, el tamaño de las células, la proporción de aumento de ARN y el número de genes detectados suelen estar correlacionados positivamente, como se muestra en la siguiente figura.
Si el ARN mitocondrial es demasiado alto, también indica daño celular. Porque cuando las células se dañan, el ARN citoplasmático escapará, pero el ARN mitocondrial no escapará porque está envuelto por la membrana mitocondrial. Por tanto, cuando la membrana celular se daña, la proporción de ARN mitocondrial será alta. Nota: Este fenómeno también ocurrirá cuando las células experimenten apoptosis o necrosis.
Cuando la proporción de ARN ribosómico es relativamente alta, puede deberse a que hay más degradación del ARN en la célula. En transcriptomas unicelulares de longitud completa, se puede utilizar la preferencia 3' para detectar si existe una degradación extensa del ARN dentro de la célula.
En la imagen de arriba, dibujamos un diagrama de distribución del número de genes en las células, tasa de comparación única, tasa de comparación del cuerpo genético, detección de picos, etc., y luego eliminamos las células no calificadas, que pasarán todas Los controles de calidad anteriores se conservaron para análisis posteriores.
Basado en el algoritmo PCA, también se puede realizar un control de calidad para encontrar células que obviamente no están agrupadas con otras células.
Estas celdas se consideran celdas que no cumplen con los estándares de control de calidad, como se muestra en la siguiente figura.
Ya tenemos tantos métodos e indicadores para filtrar celdas, entonces, ¿a qué debemos prestar atención?
El siguiente paso es discutir cómo filtrar genes. En la mayoría de los casos, no usaremos todos los genes para el análisis de reducción de dimensionalidad, por lo que debemos seleccionar un conjunto de genes.
La configuración de los conjuntos de genes se basa en:
(1) Genes cuyo nivel de expresión es superior a un determinado umbral
(2) Existen diferencias en toda la muestra de células Genes modificados
(3) Utilizar conocimientos previos para seleccionar genes
(4) Genes diferenciales que se han identificado en la secuenciación masiva de ARN.
(5) Cuando t-SNE reduce la dimensionalidad, solo se seleccionan las primeras PC.
A veces, la expresión de algunos genes es anormalmente alta, lo que afecta la normalización de los datos posteriores. A veces también se considerará para el filtrado. Como el lncRNA nuclear, la actina, la hemoglobina, el ARN mitocondrial y el ARN ribosómico.
Algunos genes deben eliminarse según la situación. Los siguientes tres puntos deben decidirse según la situación del proyecto, ya sea para conservarlos o eliminarlos.
Lo más difícil de la secuenciación de ARN unicelular es el efecto por lotes. Los efectos de lote pueden ocurrir en:
Diferentes lotes de muestras pueden usar diferentes estándares de control de calidad. A través de los resultados de PCA, puede verificar si hay efectos de lote obvios en los resultados.