Análisis y clasificación de datos de transcriptoma espacial 10X
La tecnología de transcriptómica espacial (ST) se está convirtiendo rápidamente en una extensión de la secuenciación de ARN unicelular (scRNAseq), con el potencial de analizar la expresión génica con resolución unicelular manteniendo al mismo tiempo la composición celular dentro del tejido. Tener perfiles de expresión y organización de tejidos permite a los investigadores comprender mejor las interacciones celulares y la heterogeneidad, lo que proporciona información sobre procesos biológicos complejos que no son posibles con las tecnologías de secuenciación tradicionales. Los datos generados por la tecnología ST son ruidosos, de alta dimensión, escasos y de naturaleza multimodal (incluidas imágenes histológicas, matrices de recuento, etc.), por lo que requieren herramientas computacionales especializadas para un análisis preciso y sólido. Sin embargo, muchos estudios de ST utilizan actualmente herramientas scRNAseq tradicionales, que son insuficientes para analizar conjuntos de datos de ST complejos. Por otro lado, muchos métodos específicos de ST existentes se basan en marcos estadísticos tradicionales o de aprendizaje automático, que no son óptimos en muchas aplicaciones debido a la escala, la multimodalidad y las limitaciones de los datos resueltos espacialmente. Excelente (como la resolución espacial, la sensibilidad y la resolución espacial). cobertura genética). Dadas estas complejidades, los investigadores han desarrollado modelos basados en aprendizaje profundo (DL) para mitigar los desafíos específicos de ST. Estos métodos incluyen nuevos modelos de última generación, como alineación, reconstrucción espacial y agrupación espacial. Sin embargo, los modelos de aprendizaje profundo para el análisis ST son incipientes y siguen estando en gran medida poco explorados. En esta revisión, se proporciona una descripción general de las herramientas de última generación existentes para analizar la transcriptómica resuelta espacialmente, mientras que los métodos basados en DL se examinan con mayor profundidad. Se analizan nuevas fronteras y cuestiones abiertas en el campo y se destacan áreas donde anticipamos aplicaciones transformadoras de DL.
Aunque los organismos multicelulares contienen un genoma homogéneo dentro de sus células, la morfología celular y los patrones de expresión génica son en gran medida diferentes y dinámicos. Estas diferencias surgen de los sistemas reguladores de genes internos y de señales ambientales externas. Las células proliferan, se diferencian y funcionan en los tejidos mientras envían y reciben señales del entorno que las rodea. Estos factores ambientales hacen que el destino celular dependa en gran medida de su entorno. Por lo tanto, estudiar el comportamiento de las células en los tejidos residentes es fundamental para comprender la función celular y su destino pasado y futuro.
Los avances en la secuenciación unicelular han transformado los campos de la genómica y la bioinformática. La llegada de la secuenciación de ARN unicelular (scRNAseq) permite a los investigadores analizar los niveles de expresión genética en diversos tejidos y órganos, lo que les permite crear mapas completos de diferentes especies. Además, scRNAseq es capaz de detectar distintas subpoblaciones presentes dentro de los tejidos, lo que es fundamental para descubrir nuevos procesos biológicos, el funcionamiento interno de las enfermedades y la eficacia de los tratamientos. Sin embargo, la secuenciación de alto rendimiento de tejidos sólidos requiere la disociación del tejido, lo que resulta en la pérdida de información espacial. Para comprender completamente las interacciones celulares, se requieren datos sobre la morfología del tejido y la información espacial, que scRNAseq por sí solo no puede proporcionar. Desde las etapas de desarrollo (p. ej., destino celular asimétrico de las células madre e hijas) hasta la diferenciación celular (p. ej., función celular, respuesta a estímulos y homeostasis tisular), la ubicación de las células dentro de un tejido es fundamental. Estas limitaciones se aliviarán mediante técnicas que puedan medir la expresión genética a nivel unicelular preservando al mismo tiempo la información espacial.
La transcriptómica espacial (ST) proporciona una visión imparcial de la organización de los tejidos, crucial para comprender el destino celular, delimitar la heterogeneidad y otras aplicaciones. Sin embargo, muchas tecnologías ST actuales adolecen de una menor sensibilidad en comparación con scRNAseq y carecen de la resolución unicelular proporcionada por scRNAseq. Las técnicas in situ dirigidas intentan resolver los problemas de resolución y sensibilidad, pero tienen un rendimiento genético limitado y a menudo requieren un conocimiento previo del gen objetivo.
Más específicamente, tecnologías in situ (por ejemplo, secuenciación in situ, hibridación fluorescente in situ de una sola molécula (smFISH), secuenciación de amplificación dirigida, smFISH de ouroboros (osmFISH), hibridación in situ fluorescente resistente a errores múltiples (MERFISH), secuencia FISH (seqFISH+ ) y el mapeo de lectura de amplicones de transcripción resuelto espacialmente (STARmap) generalmente se limitan a cientos de genes preseleccionados y, a medida que se agregan más sondas, la precisión puede disminuir a medida que se hace referencia a estos métodos. > Por otro lado, las tecnologías basadas en secuenciación de próxima generación (NGS) (p. ej., Visium de 10x Genomics y su predecesor Slide-Seq, HDST), codifican con barras todo el transcriptoma pero capturan. Además, a diferencia de las técnicas basadas en imágenes, las basadas en NGS Los métodos permiten un análisis imparcial de grandes secciones de tejido. Sin embargo, las tecnologías basadas en NGS no tienen resolución unicelular y requieren métodos computacionales para inferir características celulares o correlacionarlas con escalas histológicas. procesamiento tradicional de imágenes estadísticas o médicas que requiere un marco de supervisión humana, que no es ideal para análisis a gran escala. Además, muchos algoritmos no se pueden generalizar en diferentes plataformas de secuenciación, lo que limita su utilidad y limita la profundidad de los esfuerzos de integración multiómica. Los métodos de aprendizaje (DL) pueden utilizar datos sin procesar para extraer representaciones (o información) útiles necesarias para realizar tareas, como clasificación o detección. Esta cualidad hace que dichos algoritmos de aprendizaje automático (ML) sean muy adecuados cuando la cantidad de datos disponibles es grande y. la dimensionalidad es mayor y las aplicaciones ruidosas, como los modelos DL ómicos unicelulares, se han utilizado ampliamente en estudios de scRNAseq (por ejemplo, preprocesamiento, agrupación, identificación de tipos de células y aumento de datos) y han mostrado mejoras significativas con respecto a los métodos tradicionales. métodos en análisis ST Además, los modelos DL pueden explotar múltiples fuentes de datos (por ejemplo, datos de imágenes y texto) para aprender un conjunto de tareas, dado que la transcriptómica resuelta espacialmente es de naturaleza multimodal (es decir, es de naturaleza multimodal). y datos de recuento de expresión genética) y análisis posteriores que consisten en múltiples tareas (como agrupación y detección de tipos de células), los investigadores han estado tratando de desarrollar algoritmos DL específicos de ST
Con las técnicas ahora definidas, las describimos a continuación. métodos comunes de aprendizaje automático (ML) para analizar datos ST, primero discutiendo el desarrollo de algoritmos de ML y modelos de aprendizaje profundo (DL), y luego discutiendo métodos comunes para el análisis espacial de la transcriptómica (y la arquitectura de scRNAseq).
Los datos experimentales sin procesar a menudo contienen ruido u otras características no deseadas, lo que plantea muchos desafíos para los algoritmos de aprendizaje automático. Por lo tanto, a menudo es necesario preprocesar cuidadosamente los datos o confiar en experiencia en un dominio específico para transformar los datos sin procesar en alguna representación interna de la que el modelo ML pueda aprender. Sin embargo, los algoritmos de aprendizaje profundo (DL) están diseñados para utilizar solo datos sin procesar para extraer y crear automáticamente representaciones útiles necesarias para aprender la tarea en cuestión. En términos generales, los modelos DL pueden aprender de las observaciones construyendo una jerarquía de conceptos, donde cada concepto se define por su relación con conceptos más simples. Una representación gráfica de una jerarquía de conceptos (y aprendizaje) consistiría en muchas capas, con muchos nodos y bordes conectando vértices, algo similar a una red neuronal humana. Este gráfico se llama red neuronal artificial (RNA). Las RNA están compuestas de nodos interconectados (“neuronas artificiales”) que se asemejan e imitan la función de las neuronas de nuestro cerebro. Si una red neuronal artificial consta de muchas capas, normalmente más de tres capas, se considera un modelo de aprendizaje profundo y, por tanto, se denomina modelo profundo.
El campo ST está evolucionando rápidamente y cada semana se publican nuevos conjuntos de datos y canales de análisis. Las innovaciones en métodos biológicos seguirán inspirando la creatividad en el desarrollo de algoritmos, con énfasis en marcos basados en ML. Aunque actualmente existe un pequeño espacio para los modelos DL para el análisis ST, se espera que el campo experimente un cambio de paradigma hacia modelos de aprendizaje profundo.
A continuación se ofrece una descripción general de las técnicas actuales basadas en DL para la alineación e integración de datos ST, agrupación espacial, deconvolución de puntos, inferencia de comunicación intercelular y trabajo con datos scRNAseq (con referencia espacial limitada o nula). reconstrucción de coordenadas espaciales (atlas). El método DL propuesto tiene ventajas de precisión y escalabilidad en comparación con los métodos tradicionales. Sin embargo, los métodos DL no siempre son los preferidos porque son costosos desde el punto de vista computacional y pueden carecer de interpretabilidad biológica. A medida que se desarrollen más métodos de análisis ST, creemos que los conjuntos de datos estándar para comparar nuevos modelos y análisis integrales de precisión y eficiencia de las técnicas existentes serán de gran valor para el campo. Aunque los métodos existentes establecen nuevos avances en sus respectivas categorías, todavía hay mucho margen de mejora. En el análisis posterior de ST, la aplicación de algoritmos DL para estudiar la comunicación intercelular y la identificación de genes espacialmente variables sigue estando poco explorada. Dada la capacidad de los modelos DL para extraer patrones complejos a partir de datos sin procesar, se espera que los métodos DL resulten útiles para desentrañar procesos biológicos complejos, ayudando a identificar interacciones celulares y genes altamente variables en contextos espaciales.
La vida es buena y es aún mejor contigo