Red de conocimiento del abogados - Cuestiones jurídicas del divorcio - Conceptos básicos: principios y detalles de secuenciación de Illumina (tomando RNA-seq como ejemplo)

Conceptos básicos: principios y detalles de secuenciación de Illumina (tomando RNA-seq como ejemplo)

En la actualidad, los datos que analizamos principalmente son los datos de secuenciación de segunda generación, que es el NGS del que todo el mundo habla a menudo. El mayor ganador entre ellos debería ser la empresa de secuenciación Illumina, cuyo método de síntesis clásico es la secuenciación. por síntesis (SBS) utiliza inteligentemente dNTP con diferente fluorescencia para visualizar la composición de la base, lo cual es muy interesante en sí mismo. Pero esto conlleva algunos problemas. Tome RNA-seq como ejemplo. Si usted es un jugador de análisis de datos clásico que comienza desde la matriz de expresión, entonces los detalles de la construcción de la biblioteca no parecen ser tan importantes para usted; Si es un jugador de análisis de datos a partir de datos originales fastq fuera de línea (o incluso experimentos de construcción de bases de datos), los detalles de la construcción de la base de datos pueden ser particularmente importantes en este momento y necesita conocer los conceptos básicos. Tal vez encuentre a menudo algunos términos, algunos de los cuales pueden confundirlo:

Ahora tomemos la clásica secuenciación de construcción de bibliotecas de ARNm trenzado TruSeq de Illumina como ejemplo para recorrer todo el proceso de secuenciación de Illumina. ¿Por qué? ¿Estrategia de creación de bases de datos? En primer lugar, RNA-seq es actualmente la tecnología de detección de expresión genética más utilizada a nuestro alcance; en segundo lugar, en comparación con la secuenciación no específica de hebras, la secuenciación específica de hebras es más compleja y difícil de entender para la mayoría de las personas. Con respecto a la secuenciación específica de hebras, ya hablé sobre este tema en un artículo extenso: un artículo explica la secuenciación específica de hebras: ¿cadenadas? ¿cadenadas inversas? El volumen de lectura es bastante bueno y la respuesta también es buena. Si está interesado, puede ir a Mirar, aquí solo utilizamos el ARNm trenzado de TruSeq como ejemplo.

Como de costumbre, primero daré una introducción general al ARNm trenzado de TruSeq utilizando imágenes y texto:

Mirando el proceso, déjenme decirles de antemano que el rojo siempre representa el sentido strand. Información, el azul cielo representa la información de la cadena antisentido:

Nota, ahora volvemos a esta estructura y comenzamos el proceso de secuenciación por computadora:

Personas que han hecho fastq. comparación de archivos Todos sabemos que este proceso es muy importante. De lo que todo el mundo habla es de conexión. Sale el tercer sustantivo: adaptador. Entonces, ¿qué es exactamente un porro? ¿Cómo lo detecta un software como fastqc? ¿Cómo se conectan software como cutadapt, fastp, trimmomatic y trim_galore? Parece que todas estas son áreas grises. Esto es lo que entiendo:

Primero, veamos la estructura de la biblioteca:

Esto en realidad es fácil de entender. adaptador del archivo fastq Vaya al comienzo de cada lectura. ¿Qué es entonces un adaptador? Simplemente puede entender que en una biblioteca, el resto de las secuencias no biológicas pertenecen a adaptadores, incluidos P5, P7 y los sitios de unión del cebador de secuenciación.

Entonces, ¿cómo detecta fastqc el adaptador? Si echas un vistazo al GitHub de fastqc, encontrarás que tiene varias secuencias como esta:

Puedes pensar que es sorprendente, pero de hecho, fastqc determina si tu secuencia tiene un adaptador simplemente trabajando con estos secuencias. Sólo una coincidencia. Las preguntas que siguen son:

Permítanme darles la respuesta primero:

Suena escandaloso, pero quedará claro después de hacer un dibujo:

Efectivamente , no se puede decir que sean exactamente iguales, solo se puede decir que son exactamente iguales, es decir, todas las transposasas Tn5 actualmente en el mercado deben conectar esta secuencia a ambos extremos del ADN, para que podamos. detectar el adaptador.

Quizás todavía no lo creas, vale, pongamos otro ejemplo:

Esto no se puede decir que sea exactamente igual, sólo se puede decir que es exactamente igual. ¿Es hora de creerlo?

Después de completar la prueba anterior, es posible que te encuentres con una pregunta: Entonces, ¿el extremo 3' de los cebadores de secuenciación de read1 y read2 siempre tiene la misma parte? ¿La misma parte es la secuencia utilizada para determinar si el adaptador existe? Si miras la imagen de arriba, sabrás que este es realmente el caso.

Finalmente, para que estés más convencido, también pegué aquí la secuencia del adaptador de trim_galore. ¿No es exactamente lo mismo que fastqc? ¡Resulta que la complicada secuenciación de Illumina está tan unificada!