Introducción al índice de códigos de barras en la secuenciación de próxima generación
El instrumento de secuenciación de segunda generación más utilizado en la actualidad es el secuenciador Illumina Tomando como ejemplo el secuenciador Hiseq-2000, tiene 2 celdas de flujo (flow cell), cada celda de flujo tiene 8 tiras de carril (. canal), y el volumen de datos de secuenciación de un solo carril puede alcanzar 44G.
Sin embargo, para la secuenciación de exomas actual, el área de secuenciación es de aproximadamente 64M, la profundidad de secuenciación es de 200X y el volumen total de datos es de solo 13G. Un carril de Hiseq-2000 es suficiente para medir 3 exomas. . Para los transcriptomas, el volumen de secuenciación de una muestra no excederá los 4G y un carril puede medir 10 muestras de transcriptomas al mismo tiempo. En términos generales, la cantidad de datos necesarios para cada muestra suele ser relativamente pequeña para la secuenciación del exoma, la secuenciación del transcriptoma, la secuenciación de miARN, la secuenciación de lncRNA, la secuenciación de ChIP y otros conjuntos de datos.
Unidades de datos de secuenciación
Los datos de secuencia de ácidos nucleicos se expresan en el orden de bases de "A, T, G, C", y su cantidad se puede expresar en k, M, G, etc. Expresado en unidades, k representa 10 3, M representa 10 6 y G representa 10 9. Por ejemplo, el tamaño del genoma humano completo es 3G (o 3Gb), que es 3X10 9 b. Además, las unidades de almacenamiento de las computadoras también se expresan utilizando unidades como k, M y G. Sin embargo, la conversión de las unidades de almacenamiento de las computadoras se realiza a 1024, que es diferente de la secuencia de bases de 1000. Teniendo en cuenta que una letra se almacena como 1 Byte en la computadora, cuando se usa de manera aproximada, la cantidad de datos de secuenciación puede ser aproximadamente igual al tamaño de la computadora que ocupa.
Dado que la capacidad de secuenciación del instrumento de secuenciación es mucho mayor que la cantidad de secuencia de la muestra de prueba, para evitar el desperdicio del instrumento, es una idea natural medir varias muestras al mismo tiempo en un carril. . Sin embargo, para distinguir las secuencias de múltiples muestras, se deben agregar "etiquetas" específicas a diferentes muestras, de modo que los datos de diferentes muestras puedan separarse durante el análisis de datos posterior, y esta "etiqueta" es el código de barras.
En definitiva, el código de barras es la "tarjeta de identificación" de muestras mezcladas en la secuenciación, que se utiliza para distinguir diferentes muestras.
La siguiente imagen es de la literatura "Bibliotecas de secuenciación multiplexadas de Illumina a partir de cantidades de picogramos de ADN"
Para la plataforma Hiseq de Illumina, antes de la secuenciación, debemos construir biblioteca.
Existen dos principios para seleccionar el código de barras: balanza base y balanza láser.
El equilibrio de bases se refiere a la necesidad de tener en cuenta el equilibrio y la complejidad de la secuencia del código de barras. El equilibrio significa que la proporción de bases está equilibrada (1:1 es la más equilibrada), mientras que la complejidad es los tipos. de bases a las que se hace referencia son diversas (la presencia de cuatro bases al mismo tiempo es la más diversa).
Por lo tanto, la mejor secuencia de código de barras debe tener cuatro bases A, T, G y C al mismo tiempo, y la proporción de cada base es aproximadamente del 25%.
El saldo base mencionado aquí se refiere al saldo entre múltiples códigos de barras, no al saldo base dentro de un código de barras. Por ejemplo, si hay 12 muestras de transcriptoma para medir, entonces se necesitan 12 códigos de barras (suponiendo que cada código de barras tiene 6 bits de largo, de acuerdo con el principio de equilibrio de bases, la primera base del código de barras debe contener A, T y Hay cuatro). bases, G y C, y la proporción de cada base es aproximadamente del 25%. Es decir, la mejor situación para estas 12 secuencias de códigos de barras debería ser 3 cada una comenzando con A, T, G y C. De la misma forma se deduce el código de barras de las 5 bases restantes.
En el secuenciador Illumina, las dos bases A y C utilizan un láser, que se excita con un láser rojo con una longitud de onda de 660 nm; G y T utilizan un láser, que se excita con una longitud de onda de 532 nm. .nm excitación por láser verde. Por lo tanto, si no se puede satisfacer el equilibrio base, se puede hacer la siguiente mejor opción e intentar satisfacer el equilibrio del láser.
En pocas palabras, el equilibrio láser consiste en intentar satisfacer cada posición base en un conjunto de códigos de barras para que sea A+C=G+T.
Los códigos de barras que no cumplan tanto con el equilibrio base como con el equilibrio láser tendrán grandes riesgos de separación de datos, o es posible que no puedan separar muestras o que no puedan identificar ciertos fragmentos de secuenciación.
A continuación se detallan las 12 secuencias de códigos de barras recomendadas por Illumina.
Tomando la primera posición (columna) como ejemplo, A:G:C:T=3:3:3:3=1:1:1:1. De hecho, la proporción de bases en cada posición de esta combinación de códigos de barras es cercana a 1:1 (consulte la tabla a continuación para obtener más detalles) y el equilibrio de bases es casi perfecto.
Ubicación 1º 2º 3º 4º 5º 6º
A 3 3 4 3 3 3
T 3 3 3 3 4 3
C 3 3 3 3 2 3
G 3 3 2 3 3 3
Si el número de muestras es inferior a 4, no se puede satisfacer el saldo base ¿Qué debo hacer?
Si el número de muestras es inferior a 4, entonces solo hay 3 tipos de bases en cada posición del código de barras y es imposible lograr el equilibrio de bases. ¿Qué debo hacer? En este momento, debes intentar asegurar el equilibrio del láser, y nunca colocar la misma base fluorescente, ni siquiera la misma base, en la misma posición del código de barras.
Por supuesto, Illumina también proporciona una solución a esta situación. Recomiendan tres combinaciones de códigos de barras de agrupación de bajo nivel, y la secuencia es la siguiente:
combinación doble
Combinación de 3 pliegues
Combinación de 6 pliegues
Estas tres combinaciones de códigos de barras contienen un núcleo completamente diferente: el código de barras n.° 6 y el código de barras n.° 12. La combinación de los números 6 y 12 está 100 % equilibrada con láser y cada posición (columna, a saber, GC, CT, CT, AG, AT y TA) pertenece a un láser diferente. En otras palabras, siempre que la combinación de códigos de barras contenga los números 6 y 12, puede cumplir con los requisitos de demultiplexación más básicos y evitar errores completos de datos.
Además de los 12 códigos de barras recomendados por Illumina, también hay 96 códigos de barras para la construcción de la biblioteca de enzimas ApekⅠ de la Universidad de Cornell, 96 códigos de barras para las enzimas MseⅠ y SacⅠ de la Universidad Agrícola de Huazhong y la Universidad de Colorado. EE.UU. Daniel de la Universidad de Boulder también publicó un software para diseñar códigos de barras.