Construcción de bibliotecas de secuenciación de segunda generación: descripción general y desafíos (1)
Durante los últimos cinco años, la tecnología NGS ha sido ampliamente utilizada por investigadores en ciencias biológicas. Al mismo tiempo, con el desarrollo y avance de la tecnología de secuenciación, se han derivado algunos métodos de extracción de ácidos nucleicos y preparación de bibliotecas. Por ejemplo, se han utilizado con éxito ARN y ADN de células individuales para la preparación de bibliotecas. La base de la preparación de la biblioteca NGS es la conversión de los ácidos nucleicos, ARN o ADN diana en una forma que pueda ser utilizada por el secuenciador (Figura 1). Aquí, comparamos varias estrategias de preparación de bibliotecas y aplicaciones NGS, centrándonos en bibliotecas compatibles con la tecnología de secuenciación de Illumina. Sin embargo, es importante señalar que casi todos los principios analizados en este artículo se pueden aplicar con ligeras modificaciones a otras plataformas NGS como Life Technologies, Roche y Pacific Biosciences.
En términos generales, los pasos centrales de la preparación de la biblioteca incluyen: 1) fragmentación y/o selección de fragmentos de una longitud específica, 2) conversión en forma bicatenaria, 3) ligadura de adaptadores de oligonucleótidos. extremo del fragmento, y 4) cuantificar la biblioteca; el tamaño del fragmento de ADN objetivo es un factor clave en la construcción de una biblioteca NGS. Los métodos para la fragmentación de ácidos nucleicos incluyen principalmente métodos físicos, enzimáticos y químicos. Los métodos físicos incluyen corte sónico (representante: Covaris) y ultrasonido (representante: BioRuptor). Los métodos de restricción incluyen endonucleasa no específica y fragmentación de transposasa. En nuestro laboratorio, Covaris, Woburn y MA se utilizan principalmente para obtener fragmentos de ADN en el rango de 100 a 5000 pb, mientras que los Covaris g-TUBE se utilizan principalmente para obtener fragmentos de ADN en el rango de 6 a 20 kb necesarios para bibliotecas emparejadas. Los métodos de digestión enzimática incluyen la digestión con DNasa I o fragmentasa, así como una mezcla de ambas enzimas (New England biolabs, IP Switzerland MA). Ambos métodos funcionan. Sin embargo, las enzimas fragmentadas producirán más indeles falsos que los métodos físicos. Otro método de digestión es Nextera de Illumina, que utiliza transposasa para la fragmentación aleatoria y la inserción de secuencias adaptadoras en ADN bicatenario. Este enfoque tiene varias ventajas, incluida la reducción del tiempo de preparación y manipulación de muestras.
El tamaño de la biblioteca está determinado por el tamaño del inserto (la porción de la biblioteca entre las secuencias enlazadoras), porque la longitud de las secuencias enlazadoras es constante. En cambio, la longitud óptima del inserto está determinada por el equipo NGS y la aplicación de secuenciación específica. Por ejemplo, en Illumina, el tamaño óptimo del fragmento se ve afectado por el proceso de generación de grupos, que incluye la preparación, dilución y distribución de la biblioteca en la superficie del chip para su amplificación. Si bien la amplificación de fragmentos cortos es más eficiente, las bibliotecas de fragmentos largos pueden producir grupos más grandes y más dispersos. La biblioteca más grande que secuenciamos con Illumina es de 1500 pb.
El tamaño óptimo de la biblioteca también lo determina la aplicación de secuenciación. Para la secuenciación del exoma, más del 80% de los exones humanos tienen menos de 200 pb de longitud. Probamos PE100 pb y el tamaño de la biblioteca de exones es de aproximadamente 250 pb, lo que puede coincidir con el tamaño promedio de la mayoría de los exones, y no hay pares de lectura superpuestos en los resultados. El tamaño de la biblioteca RNA-seq también lo determina la aplicación. Para el análisis de la expresión génica, utilizamos la secuenciación SE100. Sin embargo, elegimos el protocolo de PE100 para determinar sitios alternativos de inicio y parada de empalme o transcripción. En la mayoría de las aplicaciones, el ARN se transcribe de forma inversa a ADNc antes de la fragmentación. Normalmente, se utilizan iones metálicos divalentes (magnesio o zinc) para la digestión térmica controlada del ARN. El tamaño de los fragmentos de la biblioteca se puede controlar ajustando el tiempo de reacción de digestión y la reproducibilidad es buena.
En estudios recientes sobre siete métodos de preparación de bibliotecas RNA-seq, la mayoría de ellos fragmentaron primero el ARN y luego agregaron adaptadores. Hay dos formas de sintetizar secuencias de ADNc de longitud completa con secuencias fijas 3' y 5' sin utilizar cebadores aleatorios ni kits de ARN ultrabajos más inteligentes. Las bibliotecas de ADNc de longitud completa (promedio de 2 kb) se pueden amplificar mediante PCR de larga distancia (LD-PCR). Utilice sonicación para cortar el ADNc bicatenario amplificado a la longitud adecuada para la preparación de la biblioteca Illumina estándar (incluida la reparación y aplanamiento de extremos, la adición de A y la ligadura del adaptador y luego la amplificación con PCR). )
Otro paso para abordar el tamaño de la biblioteca después de su construcción es la selección del chip y la eliminación de dímeros adaptadores u otros subproductos de la preparación de la biblioteca. Los dímeros del enlazador son el resultado de la autoligación del enlazador. Estos dímeros se agrupan de manera muy eficiente, consumiendo un valioso espacio en el chip pero no produciendo ningún dato válido. Por lo tanto, normalmente utilizamos el método de perlas magnéticas o el método de corte en gel para la recuperación. El método de las perlas magnéticas es adecuado para situaciones en las que las materias primas son suficientes. Si la entrada de muestra es limitada, se generarán más dímeros adaptadores.
Nuestra experiencia es que los métodos basados en perlas magnéticas no son adecuados en este caso y se requiere una combinación de perlas magnéticas y métodos de recuperación de corte de caucho.
En la preparación de bibliotecas de microARN/ARN pequeñas, el producto objetivo suele ser sólo 20-30 pb más largo que el dímero adaptador de 120 pb. Por lo tanto, se necesitan métodos de corte y reciclaje de caucho para obtener tantas secuencias objetivo como sea posible. Esta precisión de separación no es adecuada para perlas magnéticas. Además, a menudo necesitamos crear una biblioteca de insertos grande (1 kb), combinada con longitudes de lectura de PE300 más largas y sin pasos de PCR, para el ensamblaje de novo de genomas bacterianos. Para obtener la mayor cantidad de datos posible para el ensamblaje, el pegamento debe cortarse y reciclarse con cuidado para obtener inserciones del mismo tamaño.
Existen varias consideraciones al construir bibliotecas a partir de muestras de ADN, incluida la cantidad de material de partida y si la biblioteca se utilizará para la resecuenciación (con secuencias de referencia disponibles para comparación) o la secuenciación de novo (que requiere el uso de Datos fuera de línea para ensamblar nuevas secuencias de referencia). La preparación de la biblioteca es propensa a sesgos debido a la presencia de regiones de GC altas o bajas en el genoma. Actualmente, se han desarrollado métodos para abordar estas cuestiones, incluida una selección cuidadosa de polimerasas, números de ciclos, condiciones y tampones utilizados para la amplificación.
La preparación de la biblioteca de muestras de ADN, ya sea que se utilicen para amplicones WGS, WES, ChIP-seq o PCR, generalmente sigue el mismo proceso. En términos generales, para cualquier aplicación, el objetivo es hacer que la biblioteca sea lo más compleja posible.
Actualmente existen varias marcas de kits de bases de datos de ADN. La competencia también ha provocado rápidas caídas de precios y una mejor calidad. Estos kits pueden manejar varios niveles de entrada de ADN, desde ug hasta pg. Sin embargo, debemos recordar que cantidades iniciales grandes reducen el número de ciclos de amplificación y, por tanto, hacen que la biblioteca sea más compleja. Además de Nextera, los pasos de preparación de la biblioteca generalmente incluyen: 1) fragmentación, 2) reparación de extremos, 3) fosforilación de 5 extremos, 4) adición de 3 extremos de a, 5) ligadura de adaptador, 6) varios ciclos de PCR para enriquecer la colección. Productos con conectores. La principal diferencia en el proceso de torrente de iones es la diferente secuencia de conectores para extremos planos.
Después de la fragmentación inicial del ADN, se utiliza una mezcla de tres enzimas (polinucleótido quinasa T4, ADN polimerasa T4 y fragmento grande de Klenow) para la compensación de extremos y la fosforilación de 5 extremos. La cola a se agrega al extremo 3 mediante la polimerasa Taq o el fragmento Klenow (exo-). Taq es más eficiente para agregar colas, pero Klenow se puede usar cuando los métodos de calentamiento no están disponibles, como con bibliotecas emparejadas. Durante el proceso de unión, la relación óptima entre articulación y fragmento es de aproximadamente 10:1 en términos molares. Demasiados adaptadores pueden formar dímeros difíciles de aislar que dominan la amplificación posterior. Después de la reparación final y una reacción de adición, el método de recuperación en gel o perlas magnéticas es adecuado, pero después de la reacción de ligación, descubrimos que el método de perlas magnéticas puede eliminar el dímero conector de manera más efectiva.
Para facilitar la mezcla de múltiples muestras, se pueden utilizar diferentes códigos de barras para diferentes muestras. Además, también se pueden añadir códigos de barras mediante el proceso de amplificación por PCR mediante cebadores con diferentes códigos de barras. Se pueden adquirir conectores de alta calidad y cebadores de PCR con códigos de barras de varios proveedores. Actualmente, todos los componentes de la construcción de una biblioteca de ADN, desde los adaptadores hasta las enzimas, tienen instrucciones escritas detalladas y pueden ensamblarse en kits de preparación de bibliotecas caseros.
Otro método es el método Nextera, que utiliza la transposasa para interrumpir aleatoriamente el ADN y etiquetarlo en un solo tubo (también llamado etiquetado). Esta enzima diseñada tiene dos funciones: fragmentar el ADN y agregar conectores específicos a ambos extremos del ADN fragmentado. Estas secuencias adaptadoras se utilizan para amplificar el fragmento insertado en el siguiente proceso de PCR. La reacción de PCR agregará un código de barras. En comparación con los métodos tradicionales, la ventaja de este proceso de preparación es que el triturado, la reparación de extremos y la conexión de juntas se combinan en uno solo. Este método es más sensible a la cantidad inicial de ADN que los métodos de fragmentación mecánica. Para lograr la escisión a la distancia correcta, la proporción entre transposasa y muestra es muy importante. Debido a que el tamaño de los fragmentos depende de la eficiencia de la reacción, todos los parámetros de la reacción, como la temperatura y el tiempo de reacción, son críticos y deben controlarse estrictamente.
Algunos grupos de investigación han publicado los resultados de la secuenciación del genoma unicelular. Las estrategias actuales utilizan el desplazamiento de múltiples hebras (MDA) para amplificar todo el genoma. MDA utiliza principalmente cebadores aleatorios y phi29, una polimerasa de desplazamiento de cadena altamente progresiva. Aunque esta técnica puede generar cantidades suficientes para construir bibliotecas de secuenciación, uno de sus problemas es la gran cantidad de sesgo causado por la amplificación no lineal. Recientemente, se ha pensado que el sesgo puede reducirse añadiendo un paso de preamplificación semilineal. Basado en la separación de células individuales y la tecnología de microfluidos, Fluidgm se utiliza para preparar bibliotecas de células individuales y se pueden obtener hasta 96 células individuales cada vez.
Para las bibliotecas de ARN, necesitamos examinar los planes de construcción de la biblioteca en función de los fines de secuenciación. Si el objetivo es descubrir eventos transcripcionales complejos y completos, entonces la biblioteca debe cubrir todo el transcriptoma, incluidos los ARN codificantes, no codificantes, antisentido e intergénicos, y debe ser lo más completa posible. Sin embargo, en muchos casos el objetivo es simplemente estudiar transcripciones que codifican ARNm que puedan traducirse en proteínas. El otro escenario involucra sólo ARN pequeños, la mayoría de los cuales incluyen snoRNA, piRNA, snRNA y tRNA. Aunque nos gustaría profundizar en los principios de las bibliotecas de secuenciación de ARN, no podemos enumerarlos todos.
Los lectores interesados pueden hacer su propia investigación.
El primer ejemplo exitoso de NGS aplicado a RNA-seq fue el miRNA. La preparación de bibliotecas de secuenciación de miARN es muy sencilla y suele ser una reacción de un solo paso. De hecho, el miARN tiene una modificación de fosfato natural en el extremo 5, lo que permite que las ligasas se dirijan selectivamente al miARN.
En el primer paso del paso de Illumina, un adaptador de ADN bloqueado de 3 extremos y adenilado de 5 extremos se liga a la muestra de ARN mediante la ARN ligasa 2 de T4 truncada. Esta enzima ha sido modificada para adenilar sustratos enlazadores de 3 terminales. Por lo tanto, otros fragmentos de ARN no se ligarán entre sí en esta reacción. Sólo los oligonucleótidos de adenilato pueden ligarse al extremo 3 del ARN libre. Dado que el extremo del conector 3 está bloqueado, no se puede realizar la autoconexión. A continuación, se añade un adaptador de ARN de 5 terminales bajo la acción de ATP y ARN ligasa 1. Sólo las moléculas de ARN fosforiladas de 5 terminales pueden usarse como sustratos eficaces en reacciones de ligación. Después de la segunda reacción de ligación, el cebador de transcripción inversa se hibrida con el adaptador de 3 terminales y comienza la amplificación por RT-PCR (generalmente 12 ciclos). Debido a su pequeño tamaño y tamaños de fragmentos predecibles (120 pb de secuencia adaptadora más 20-30 pb de inserto de miARN), las bibliotecas con códigos de barras o múltiples muestras agrupadas generalmente se recuperan juntas. Debido a la presencia de dímeros adaptadores y uniones que no son miARN (ARNt y ARNsno), la recuperación del gel es muy importante. Este método de preparación de la biblioteca da como resultado la secuenciación direccional de la biblioteca, siempre desde el quinto extremo hasta el tercer extremo del ARN original. El principio de secuenciación de miARN de Ion Torrent es similar. Ion Torrent se conectó al extremo 3 y al extremo 5 del miARN a través de dos adaptadores diferentes, y luego se realizó RT-PCR. En general, el paso de construcción de la biblioteca puede convertir cualquier material de ARN en una biblioteca de secuenciación de ARN dirigida.
Una de las limitaciones de la biblioteca de miARN es la baja cantidad inicial de ARN (
Para la biblioteca de secuenciación de ARNm, el método incluye principalmente el uso de cebadores aleatorios o cebadores oligo-dT para sintetizar ADNc o en el fragmento de ARNm Se realiza alguna forma de amplificación en el ARNm, comenzando con cebadores aleatorios u oligo-dT. Si se utilizan cebadores aleatorios, primero se debe eliminar o reducir el ARNr mediante sondas basadas en oligonucleótidos, como Ribo. -Zero y RiboMinus Además, el ARN poliA se puede detectar positivamente mediante perlas magnéticas oligo-dT.
En general, se espera que la biblioteca pueda conservar la direccionalidad de la cadena de ARN objetivo original, como la transcripción inversa. ARN antisentido, que funciona para regular la expresión genética. De hecho, el análisis de lncRNA se basa en la secuenciación direccional de ARN. Hay varias formas de realizar reacciones de ADNc de forma lógica para eliminar selectivamente ambas cadenas. 1. Agregue dUTP al sintetizar la segunda cadena de ADNc. hebras que pueden ser digeridas por enzimas de reacción o amplificadas por polimerasas que no reconocen el uracilo. Además, la adición de actinomicina D puede reducir la síntesis de la hebra de sentido falso durante la síntesis. El método de hibridación utiliza la secuencia conectora de un cebador oligo-dT anclado o aleatorio para iniciar la síntesis del ADNc de la primera cadena. A continuación, en el paso de conversión de la plantilla, se agrega la secuencia conectora de 3 terminales a la molécula de ADNc. Una de las ventajas de este método es que la molécula de ADNc de la primera cadena se puede amplificar directamente mediante PCR con una etiqueta de secuencia única en el extremo 3-terminal, sin la necesidad de una síntesis de la segunda cadena.
El diseño de cebadores para la síntesis de ADNc es muy importante para las bibliotecas de RNA-seq. Por ejemplo, las secuencias de rRNA se pueden eliminar diseñando cebadores que se dirijan al rRNA (no se utilizan para una amplificación adicional) NuGEN Ovation RNA-seq combina SPIA. (Amplificación isotérmica de cebador único) tecnología de amplificación de ácidos nucleicos con cebadores para la síntesis de ADNc de primera cadena para inhibir la amplificación de ARNr. Utilizando 4096 hexámeros para suprimir secuencias de ARNr (identificando y eliminando coincidencias perfectas), se retuvieron 749 hexámeros para iniciar el ADNc de primera cadena. Como resultado, las lecturas de ARNr cayeron del 78% al 13%. El primer método, DP-seq, utiliza 44 cebadores de heptámeros para amplificar la mayoría de las transcripciones de ratón. Este diseño de cebador inhibe selectivamente la amplificación de transcripciones altamente expresadas, incluido el ARNr. y proporciona expresión de baja densidad en modelos de desarrollo embrionario. Estimación de transcritos abundantes.
Recientemente se han publicado varios métodos para preparar bibliotecas de ARN unicelular. cadena de ADNc y combinar los resultados con una reacción de transformación de plantilla. El producto de ADNc de la primera cadena se puede amplificar mediante cebadores de PCR universales como se muestra en la Figura 4B e incorporar al kit. Otro método, llamado CEL-Seq, sintetiza la secuencia del promotor T7 en el extremo 5 del ADNc y luego la amplifica durante la transcripción in vitro.
El ARN total de una sola célula es generalmente de 10 pg, mientras que el ARN poliA es de sólo 0,1 pg. Por lo tanto, estos métodos requieren, hasta cierto punto, la amplificación de la transcripción completa para generar cantidades iniciales suficientes para la construcción de la base de datos.
La desventaja de esta amplificación a gran escala es que genera mucho ruido técnico, problema que aún no se ha solucionado. (?)
Finalmente, la impronta ribosómica puede reflejar la mezcla de transcripciones de ARNm celular en cualquier nodo de traducción. Este método implica el uso de ribonucleasas para lisar células, dejando solo una región de 30 nucleótidos protegida por nucleosomas. Los nucleosomas se purificaron mediante centrifugación en gradiente de densidad de sacarosa y luego se extrajo el ARNm de los nucleosomas. Otra nueva aplicación de la secuenciación de ARN es SHAPE-Seq, que utiliza reactivos de acilación para modificar bases no apareadas de manera sesgada para explorar la estructura secundaria del ARN. Mediante la transcripción inversa de ARN modificado y controles no modificados, se pueden secuenciar los fragmentos de ADNc obtenidos y la comparación puede revelar información de emparejamiento de bases a nivel de nucleótidos.