01 Introducción a la secuenciación de alto rendimiento-RNA-Seq
Por ejemplo, ahora tenemos un grupo de células nerviosas normales y un grupo de células nerviosas mutadas. Las células mutadas se comportan de forma diferente a las células normales. Queremos saber qué mecanismos genéticos son responsables de esta diferencia, lo que significa que queremos observar las diferencias en la expresión genética. Cada célula tiene un conjunto de cromosomas (cromosomas) y cada cromosoma tiene un conjunto de genes. Algunos genes están activos y otros inactivos. La secuenciación de alto rendimiento nos dice qué genes están activos y cuánto se transcribe. Podemos utilizar RNA-Seq para detectar la expresión genética en células normales y células mutantes. Luego podemos comparar los dos tipos de células y descubrir en qué se diferencian en las células mutantes.
RNA-Seq se divide en tres pasos principales:
Nota: utilizo el protocolo y el secuenciador de Illumina como ejemplos porque se usan comúnmente, pero recuerde, existen otros protocolos y secuenciadores. que son diferentes.
Hacemos esto porque las transcripciones de ARN pueden tener miles de bases de largo, pero los secuenciadores solo pueden secuenciar fragmentos más cortos (200-300 pb).
El ADN bicatenario es más estable que el ARN y es fácil de amplificar y modificar.
Los adaptadores hacen dos cosas:
NOTA: Este paso no es 100% eficiente
Solo se amplifican los fragmentos con adaptadores de secuenciación;
Imagínate el fragmento de ADN que queremos secuenciar. Está vertical porque así está en el secuenciador. De hecho, hay aproximadamente 400 millones de segmentos dispuestos verticalmente en una cuadrícula. Solo les muestro 4 fragmentos, una cuadrícula, que llamamos celda de flujo. Esta máquina tiene sondas fluorescentes y sondas de diferentes colores unen diferentes nucleótidos. Las sondas están unidas a la primera base de cada secuencia. Una vez conectada la sonda, la máquina toma una fotografía de la celda de flujo desde arriba. Esta imagen le dice a la máquina que la primera base en la esquina inferior izquierda es "A", la esquina inferior derecha es "G" y que hay dos "A" detrás de ella. Luego, la máquina elimina el color de la sonda, que luego se une a la siguiente base en cada fragmento, y se repite el proceso. Este proceso se repite hasta que la máquina determina la secuencia de cada nucleótido.
A veces, el brillo de la sonda no es alto y la máquina no está segura de estar juzgando el color correcto. Los puntajes de calidad son parte de la salida, lo que refleja la confianza de la máquina en el reconocimiento básico. En este caso, los puntos descoloridos reciben una puntuación de calidad baja.
Otro motivo por el que podría obtener una puntuación de calidad baja es que hay muchas sondas del mismo color en la misma área. Esto se denomina "baja diversidad" y demasiadas sondas de un solo color dificultarán la tarea. identificar una sola Las secuencias se vuelven difíciles y los colores se confunden.
Cada "lectura" de secuenciación contiene 4 filas de datos. La primera línea (siempre comenzando con @') es el ID único de la secuencia. La segunda línea contiene las bases del fragmento de secuencia. La tercera línea es siempre un carácter "+". La cuarta fila contiene la puntuación de calidad de cada base en el fragmento de secuencia.
Ahora que entendemos los datos sin procesar y cómo se generaron, necesitamos:
1. Filtrar lecturas basura
2. Convertir datos de alta calidad lecturas Alinear con el genoma
3. Calcular lecturas para cada gen
Lo último que hacemos antes del análisis es normalizar los datos. Esto se debe a que cada muestra tiene lecturas diferentes, debido al hecho de que una muestra puede tener más lecturas de baja calidad u otra muestra puede tener una concentración ligeramente mayor en la celda de flujo. Por ejemplo, la muestra 1 tiene 635 lecturas y la muestra 2 tiene 1270 lecturas. Esto no significa que la cantidad de transcripción genética en la muestra 2 sea el doble que la de la muestra 1. Por el contrario, esto significa que la muestra 2 tiene menos lecturas de baja calidad y puede tener más puntos en la celda de flujo que la muestra 1. Sin embargo, a juzgar por las lecturas, la cantidad de transcripción genética en la muestra 2 parece ser el doble que la de la muestra 1. Por lo tanto, necesitamos ajustar las lecturas de cada gen para reflejar las diferencias en las lecturas asignadas a cada muestra. El método más sencillo es dividir las lecturas de cada gen por el total de lecturas de cada muestra. Sin embargo, existen muchas formas más sofisticadas de hacerlo.
Necesitamos un gráfico con 20.000 ejes para trazar los datos sin procesar, por lo que utilizamos PCA (Análisis de Componentes Principales) o un método similar para trazar los datos. PCA reduce la cantidad de ejes necesarios para mostrar aspectos importantes de los datos. Este es un gráfico PCA de un experimento de secuenciación de ARN realizado en células nerviosas. Las muestras "en peso" son "normales". Las muestras "ko" son aquellas que los investigadores mutaron. La muestra "ko" forma un pequeño y agradable grupo en la esquina. Todas las muestras "en peso" están a la izquierda, pero distribuidas en el eje y. Por la forma en que se trazan estos gráficos, la diferencia más importante está en el eje x y la diferencia en el eje y no es importante, lo que significa que la diferencia entre las muestras "wt" y "ko" es la mayor; sin embargo, Cuando hagamos un análisis más detallado, es posible que deseemos excluir "wt2".
Resumen:
Esto generalmente se hace usando edgeR o DESeq2, y los resultados generalmente se muestran usando este gráfico.