Problemas y perspectivas de la secuenciación de chips
/s/7 bqcpr 1 bmjazhv 408-sv6Q
La secuenciación por inmunoprecipitación de cromatina (ChIP-seq) es un método que apunta ADN Técnicas de análisis de todo el genoma para unir proteínas, modificaciones de histonas o nucleosomas. A medida que disminuyen los costos de secuenciación, ChIP-seq se ha convertido en una herramienta indispensable para estudiar la regulación genética y los mecanismos epigenéticos. En este artículo, resumimos el contenido anterior, analizamos los problemas a los que se debe prestar atención en la etapa actual de ChIP-seq y cómo utilizar mejor esta tecnología para obtener resultados de investigación.
Aunque el formaldehído es un agente reticulante muy penetrante, su eficiencia de reticulación es baja porque su reactividad se limita a las aminas. Para las células de mamíferos, la eficacia máxima de reticulación es sólo del 1%. Las proteínas que permanecen en el ADN durante menos de 5 segundos no pueden ser entrecruzadas por proteínas. Además, el formaldehído también puede provocar que muchas otras proteínas no relacionadas se entrecrucen con el ADN, lo que afecta a los datos de análisis posteriores. Hay informes de que la reticulación del formaldehído puede desencadenar el mecanismo de respuesta al daño del ADN, cambiando así la composición de la cromatina y sesgando así los resultados del chip. Debido a que la reacción de entrecruzamiento se invierte con calentamiento y pH bajo, la estabilidad de los complejos entrecruzados de ADN y proteína también es una preocupación.
Las rodajas se pueden dividir en dos tipos según la presencia o ausencia de un paso de reticulación con formaldehído. Un tipo es el X-ChIP reticulado con formaldehído (seccionamiento reticulado y cizallado mecánicamente). El otro es un chip sin reticulación, concretamente el chip N (ChIP nativo); en comparación con el chip X, el chip N tiene muchas ventajas: (1) alta resolución (2) evita la falta de especificidad causada por el enriquecimiento de reticulación con formaldehído; de proteínas en el ADN; (3) evitar el entrecruzamiento de formaldehído para resistir la cobertura del epítopo; (4) reducir la pérdida de muestra. Debido a que se utiliza mnasa, N-chip solo es adecuado para estudiar modificaciones de histonas, no factores de transcripción.
La enzima de escisión comúnmente utilizada es la MNasa, que es una nucleasa microcócica, una nucleasa que puede degradar la secuencia de ADN de la región de unión del nucleosoma; la digestión de la cromatina por parte de la MNasa puede liberar nucleosomas independientes. La hidrólisis enzimática de la MNasa tiene ciertas limitaciones: (1) Tiende a escindir los sitios de las bases A/T, lo que hace que la expresión de áreas de nucleosomas ricas en A/T sea menor que la situación real (2) La MNasa no se puede utilizar en los límites de los nucleosomas. Corte preciso; resulta en diferencias entre la posición abierta del cromosoma y la situación real; (3) la MNasa tiende a digerir los nucleosomas frágiles (4) 4) Los fragmentos de ADN obtenidos por la MNasa son relativamente cortos, lo que trae problemas para la amplificación y detección por PCR; dificultad de las muestras posteriores.
Algunos estudios creen que la interrupción ultrasónica no es tan suave como la digestión enzimática, y una interrupción desigual generará un mayor ruido de fondo en los resultados de la secuenciación, lo que afectará el análisis de datos posterior. Al seleccionar el modo de interrupción, (1) si la proteína en estudio está altamente expresada y estrechamente unida al ADN, como las histonas, entonces no es necesario reticular la muestra y se puede utilizar la digestión enzimática (2) si la proteína; en estudio se expresa Si la abundancia es baja o no se une firmemente al ADN, como los factores de transcripción, lo mejor es fijar la muestra con un agente reticulante para estabilizar la proteína y la morfología del ADN. En este caso, lo mejor es la fragmentación ultrasónica.
Los datos de ChIP-seq se pueden utilizar para analizar diferentes tipos de células, y la información de estos tipos de células se puede utilizar para inferir información dinámica del genoma o anotar el mapa epigenético del tipo de célula con algunos datos experimentales. Un número cada vez mayor de estudios ha demostrado que la información epigenética está altamente correlacionada con la expresión genética y la conformación cromosómica y puede usarse para predecir la expresión genética y la conformación cromosómica. En esta sección, presentamos brevemente herramientas de aplicación avanzadas para el análisis ChIP-seq de modificación de histonas.
Se han desarrollado varios métodos basados en el aprendizaje automático para inferir cuantitativamente los niveles de expresión génica a partir de información epigenética obtenida de experimentos ChIP-seq. Por ejemplo, (1) se aplicó un modelo de regresión lineal al enriquecimiento de modificaciones de histonas y sitios promotores para predecir la expresión génica en células T CD4+. Se utilizaron 19 modificaciones de histonas, lo que sugiere que solo se requieren tres promotores para modificar el sitio; simular la expresión genética [1]. (2) Utilizando modelos no lineales como líneas de regresión adaptativa múltiple (MARS) y bosques aleatorios, se trazaron 11 modificaciones de histonas e hipersensibilidad a la ADNasa I en 7 líneas celulares humanas [2]. Estos modelos sólo consideran el patrón epigenético de los sitios promotores pero no la información de los sitios potenciadores. Por el contrario, DeepExpression [3] utiliza datos HiChIP [4], una técnica cuantitativa de paso alto para capturar bucles cromosómicos centrales de proteínas para tener en cuenta los potenciadores y sus interacciones con los promotores. También existen herramientas que utilizan redes neuronales convolucionales (CNN) para predecir la expresión genética [5] o patrones de regulación diferencial de genes [6].
Un gran número de estudios han demostrado que los polimorfismos de una sola base en los potenciadores pueden causar enfermedades genéticas y cáncer [7], por lo que se necesita un método para definir el estado de los potenciadores en diferentes líneas celulares. Los experimentos de captura de conceptos de cromatina (3C) se han ampliado con nuevas tecnologías: Hi-C [8], HiChIP [4] y ChIA-PET [9], que pueden capturar la estructura espacial entre potenciadores y genes diana.
Hariprakash y Ferrari clasificaron los métodos para explorar las interacciones entre genes y potenciadores en cuatro categorías: (1) estimación basada en correlación de las fuerzas de interacción para todos los pares potenciador-promotor (2) métodos basados en regresión que suponen que contribuyen múltiples pares de potenciadores (3) Los métodos de aprendizaje supervisado y basados en puntuación pueden integrar múltiples conjuntos de datos ChIP-seq y otros tipos de información. Estas herramientas se centran en las interacciones potenciador-promotor, pero existen muchos otros tipos de interacciones de cromatina, como bucles potenciador-potenciador y agregación débil de cromatina producida por separación de fases [10]. CITD [11] y Long [12] utilizaron la transformada wavelet y la función de energía potencial, respectivamente, para analizar exhaustivamente la organización tridimensional del genoma a partir de datos epigenéticos.
El sesgo y los efectos por lotes en los datos de ChIP-seq tienen un impacto significativo en el análisis. Debido a que los métodos de aprendizaje automático son sensibles al ruido en los datos de entrenamiento, algunas muestras de ChIP-seq se identificarán como de calidad moderada o se rechazarán como datos de baja calidad (lo que provocará una pérdida de datos). Si las muestras biológicas son raras (como células primarias y muestras clínicas) y es difícil recolectar muestras en grandes cantidades, se puede aplicar el método de "interpolación de datos". Estos métodos utilizan datos epigenéticos de otros tipos de células estrechamente relacionados para la eliminación de ruido o la reconstrucción. La "eliminación de ruido de datos" tiene como objetivo mejorar la calidad de las muestras ChIP-seq existentes mediante la identificación y eliminación del ruido en los datos. El software Coda [13] puede codificar el proceso que genera ruido y utilizar redes neuronales convolucionales para restaurar la señal en datos ChIP-seq. El propósito de la "reconstrucción de datos" es generar datos ChIP-seq faltantes a partir de grandes conjuntos de datos in silico. Chromimpulse [14] es una nueva herramienta que utiliza árboles de regresión para inferir la señal de cada experimento de eliminación utilizando los diez tipos de células más relevantes. El software PREDICTD [15] y Avocado [16] utilizan la descomposición tensorial para insertar múltiples datos ChIP-seq simultáneamente. Estos métodos de interpolación de datos son posibles alternativas computacionales a los experimentos reales de ChIP-seq y pueden abrir el camino para recopilar datos epigenómicos en todos los tipos de células y condiciones ambientales que serían biológicamente imposibles. Si bien este enfoque es un desafío computacional, se encuentran disponibles datos de alta calidad de una variedad de tipos de células para alentarlos a lograr este objetivo.
Investigaciones recientes han demostrado que muchos tipos de células, incluidas las células inmunitarias normales, desempeñan importantes funciones auxiliares en tejidos complejos y tumores. Para dilucidar esta heterogeneidad celular y las trayectorias del destino celular durante el desarrollo, se han desarrollado varios ensayos unicelulares. Entre ellos, scChIP-seq puede analizar todo el genoma de las modificaciones de histonas y otras proteínas de unión a la cromatina con resolución unicelular a partir de muestras de bajo nivel de entrada. Recientemente, se han utilizado muchos métodos para el etiquetado de células individuales y la preparación de bibliotecas ChIP-seq; estos métodos utilizan sistemas de microfluidos, etiquetado con transposasa Tn5 y estrategias sin chip.
El primer método scChIP-seq, scDrop-ChIP [17] utiliza un sistema de microfluidos para etiquetar células, combinado con métodos de chip estándar, para generar aproximadamente 800 lecturas no repetidas por célula. Los métodos de microfluidos de gotas desarrollados recientemente [18] proporcionan una resolución más alta y generan aproximadamente 10 000 lecturas únicas por celda. Una limitación de estos métodos es que los dispositivos de microfluidos especiales a menudo no están disponibles en la mayoría de los laboratorios.
La preparación de bibliotecas basada en etiquetas utilizando la transposasa Tn5 se ha utilizado ampliamente en varios análisis de NGS, incluido ChIP-seq. Sc-itChIP-seq [19] utiliza tecnología de etiquetado para etiquetar células individuales y preparar bibliotecas antes de los experimentos clásicos con chips. Este método produce 9000 fragmentos de lectura únicos por unidad. Debido a que el procedimiento experimental es similar al método estándar ChIP-seq, este método es más fácil de usar que scDrop-ChIP.
ScChIP-seq Se han desarrollado varios métodos sin chip: secuenciación por inmunoescisión de cromatina unicelular (scChIC-seq) [20] y uli cut & RUN +0 unicelular; se basan en el método CUT&RUN [22], la proteína de fusión de MNasa y proteína A se utiliza para detectar el sitio objetivo de escisión con anticuerpos específicos. Estos métodos generan aproximadamente 4100 lecturas no repetidas por celda y luego requieren pasos experimentales rigurosos para preparar la biblioteca. La desventaja es que la tasa de lecturas es relativamente baja (~ 6%). Además, se han desarrollado tres métodos similares: CUT&Tag [23], ACT-seq [24] y CoBATCH [25], que utilizan la transposasa Tn5 y la proteína A como proteínas de fusión. Durante el proceso de preparación de la biblioteca, después de que la proteína objetivo se une al cromosoma, la proteína de fusión captura el anticuerpo primario y luego activa la transposasa Tn5 para marcar el sitio de unión a la proteína. La ventaja de estos métodos es que la detección del sitio de unión a proteínas y la preparación de la biblioteca se pueden realizar simultáneamente, lo que reduce en gran medida los pasos experimentales y el tiempo. Además, estos métodos son menos susceptibles a errores causados por el paso de inmunoprecipitación. Además, estos métodos mostraron una tasa de comparación de aproximadamente el 97 %, lo que arrojó aproximadamente 12 000 lecturas no repetidas por celda. Por lo tanto, este enfoque sin chips tiene el potencial de realizar análisis scChIP-seq de alto rendimiento y alta calidad.
Finalmente, el etiquetado y secuenciación integrados de cromatina (ChIL-seq) [26] es otro método sin chips que se basa en inmunotinción en lugar de chips. Este método utiliza una sonda de anticuerpo secundaria acoplada a ADNds que contiene el promotor de la ARN polimerasa T7, la secuencia conectora NGS y la secuencia de unión a Tn5. Después de capturar el anticuerpo primario, la secuencia de ADN de la sonda se integra en el sitio de unión objetivo mediante la transposasa Tn5. Luego, la región integrada se amplifica mediante transcripción y se somete a purificación de ARN y preparación de biblioteca. Este método se puede utilizar para análisis unicelulares, pero puede requerir múltiples optimizaciones para lograr una secuenciación de alto rendimiento. En el futuro se desarrollarán otros métodos scChIP-seq, como la detección simultánea de múltiples modificaciones de histonas y otras proteínas de unión a cromatina. Estos estudios podrán capturar los genes reguladores de los cromosomas de cada célula y conocer cómo interactúan entre sí.
[1] R. Karlic, H.R. Chung, J. Lasserre, K. Vlahovicek, M. Vingron, Los niveles de modificación de histonas predicen la expresión genética, Actas de la Academia Nacional de Ciencias de EE. UU. 107 (7) (2010) )2926-31.
[2]X. Dong, M.C. Greven, A. Kundaje, S. Djebali, J.B. Brown, C. Cheng, T.R.Gingeras, M. Gerstein, R. Guigo, E. Birney, Z. Weng , Modelado de la expresión genética utilizando características de la cromatina en diversos entornos celulares, Genome Biol 13(9)(2012)R53.
[3]W Zeng, Y. Wang, R. Jiang, via denso Connected convolutional neural. Las redes integran información distal y proximal para predecir la expresión genética, Bioinformatics 36(2) (2020) 496-503.
[4] M.R. Mumbach, A.J. Rubin, R.A. Flynn, C. Dai, P.A. Khavari, W.J. Greenleaf, H.Y. Chang, HiChIP: análisis eficiente y sensible de perfiles de expresión génica dirigidos a proteínas, Método Nat 13( 11)(2016)919-922.
[5] R. Singh, J. Lanchantin, G. Robins, Y. Qi, DeepChrome: Aprendizaje profundo para predecir la expresión genética a partir de modificaciones de histonas, Bioinformatics 32(17)(2016)i639 -i648.
[6] A. Sekhon, R. Singh, Y. Qi, DeepDiff: Aprendizaje profundo para predecir la expresión genética diferencial a partir de modificaciones de histonas, Bioinformatics 34(17)(2018)I 891-i900.
[7]H. Chen, C. Li, X. Peng, Z. Zhou, J.N. Weinstein, n. Cancer Genome Atlas Research, H. Liang, Expresión de potenciador en casi 9000 muestras de pacientes. análisis de cáncer, Cell 173(2)(2018)386-399 e 12.
[8] E. Lieberman-Aiden, N.L. van Berkum, l. "Un mapa completo de interacciones de largo alcance que revela los principios de plegamiento del genoma humano", "Science" 326(5950)(2009) ) 289-93.
[9] M.J. Fullwood, M.H. Liu, Y.F. E.T. Liu, C.L. Wei, E. Cheung, Y. Ruan, Un interactoma de cromatina humana de unión al receptor de estrógeno, Nature462(7269)(2009) 64.
[10] BR Sabari, A. Dar Anese, A. Boyja, I.A. Klein, E.L. Guo, D.S. Dai, J. Schujes, E. Vasily, S. Malik, D. Hnisz, T.I. Li, Sis
[11] Chen, Wang, Xuan, Chen, Zhang, Reinterpretación de la cromatina tridimensional Interacciones a través de la transformada wavelet de mapas epigenéticos. Dominios funcionales y topológicos, Nucleic Acids Research 44(11)(2016)e 106.
[12] Qi, Zhang, Predicción de la estructura del genoma tridimensional utilizando estados de cromatina, PLoS computo Biol 15(6)(2019)e 1007024.
[13] P.W. Koh, E. Pierson, A. Kundaje, Red neuronal de conversión y secuencia de microarrays de histonas del genoma completo, Bioinformatics 33(14)(2017)i225-i233.
[14] J. Ernst, M. Kellis, "Imputación a gran escala de conjuntos de datos epigenómicos para la anotación de diversos sistemas de tejidos humanos", "Nature Biotechnology" 33(4) (2015) 364-76.
[15] T.J.
[16] J. Schreiber, T. Durham, J. Bilmes, W.S. Noble, Descomposición tensor profunda multiescala para aprender representaciones latentes del epigenoma humano, bioRxiv (2019).
[17] A. Rotem, O. Ram, N. Shoresh, R.A. Sperling, A. Goren, D.A. Weitz, B.E.Bernstein, Chip-seq unicelular revela subpoblaciones celulares definidas por estados de cromatina, Nat biotecnología 33(11)(2015)1165-72.
[18]K. Grosselin, A. Durand, J. Marsolier, A. Poitou, E. Marangoni, F. Nemati, A.Dahmani, S. Lameiras, F. Reyal, O. Frenoy, Y. Pousse, M. Reichen, A. Woolfe, C.Brenan, A.D. Griffiths, C. Vallot, A. Gerard, Microarray-seq unicelular de alto rendimiento identifica la heterogeneidad de los estados de cromatina en el cáncer de mama, NatGenet 560 p >
[19] S. Ai, H. Xiong, C.C. Li, Y. Luo, Q. Shi, Y. Liu, X. Yu, C. Li, A. He, utilizando análisis itChIP-seq unicelular Estado de cromatina, Nat Cell Biol 21(9)(2019)1164-1172.
[20]W.L., K. Nakamura, W. Gao, K. Cui, G. Hu, Q. Tang, B. Ni, K. Zhao, Secuenciación por inmunoescisión de cromatina unicelular (scChIC -seq ) para caracterizar las modificaciones de histonas, Nat Methods 16(4) (2019) 323-325.
[21]S.J. Hainer, A. Boskovic, K.N. McCannell, O.J. .
[22] P.J. Skene, S. Henikoff, Estrategias eficientes de nucleasas dirigidas para el mapeo de alta resolución de sitios de unión al ADN, Elife 6 (2017).
H.S. Kaya-Oku, S.J. Wu, C.A. Plecker, T.D. Bryson, J.G. Hernikov, S. Hernikov, CUT & Nat Commun 10(1)(2019)1930.
[24] B. Carter, W.L., J.Y. Kang, G. Hu, J. Perrie, Q. Tang, K. Zhao, mapeo mediante marcaje de cromatina guiado por anticuerpos en números bajos de células y modificaciones de histonas en células individuales (ACT-seq), Nat Commun 10(1)(2019)3747.
[25] Wang, Xiong, Sai, Yu, Liu, Zhang, He, Análisis epigenómico unicelular de alto rendimiento , Molecular Cell 76(1)(2019)206-216e 7.
[26] A. Harada, K. Maehara, T. Handa, Y. Arimura, J. Nogami, Y. Hayashi-Takanaka , K. Shirahige, H.Kurumizaka, H. Kimura, Y. Ohkawa, Un método de etiquetado integrado con cromatina permite el análisis epigenómico con menor entrada, Nat Cell Biol 21(2)(2019)287-296.