Gene Expression PredictionPart3 Deep Learning in Gene Expression Analysis

文章目录

6 第二个讲座：Deep Learning in Gene Expression Analysis
- 6.1 Introduction
- 6.2 D-GEX
- - 6.2.1 Connectivity map project
  - 6.2.2 Predicting gene expression from landmark genes
- 6.3 Deep generative models for genomics
- - 6.3.1 Manifold hypothesis
  - 6.3.2 Autoencoders
  - 6.3.3 Generative models and variational autoencoders
- 6.4 SAILER
- - 6.4.1 scATAC-seq
  - 6.4.2 SAILER
  - 6.4.3 Conditional VAE
- 6.5 Multimodal DL for Single Cell Multimodal Omics

来自Manolis Kellis教授（MIT计算生物学主任）的课
YouTube：(Gene Expression Prediction - Lecture 09 - Deep Learning in Life Sciences (Spring 2021)
Slides: slides
本节课分为四个部分，本篇笔记是第三部分。
主要是Xie Lab的一个讲座，讨论其组里的一些工作。在基因表达分析中应用深度学习。从介绍D-GEX开始，用于从关键基因预测基因表达的模型。接下来，将深度生成模型在基因组学中的应用，包括流形假设、自编码器，以及变分自编码器。此外，还介绍SAILER，这是一种基于单细胞ATAC-seq数据的模型，以及VAE。最后探索了多模态深度学习在单细胞多组学中的应用。

6 第二个讲座：Deep Learning in Gene Expression Analysis

6.1 Introduction

高通量测序技术的发展，越来越多的生物数据

基因组学/表观基因组学：WGS、WES、ChIP-seq、DNase-seq、ATAC-seq
- 主要分析DNA序列和调控的
转录组
- RNA-seq、smRNAseq、IncRNA-seq
- 研究RNA表达与功能
代谢组
蛋白质组

数据来自不同的生物学方面，进行整合和处理输入到模型中

需求与挑战
- 需求：需要能够可视化、整合和解释数据的方法，以推动生物学发现。
- 挑战：
  - 维度的诅咒（Curse of dimension）：数据特征数量远多于样本数量，可能导致分析模型过拟合。
  - 噪声（Noise）：数据收集过程中的随机误差或变异。
  - 稀疏/缺失值（Sparse/missing values）：不完整的数据可以导致分析困难。
    - single cell genomics容易出现
  - 偏见，实验工件（Bias, experimental artifacts）：数据可能包含非生物学信号的偏差，如实验操作不当产生的工件。

开发基于多模态的，整合多个技术，来进行潜在生物学分析的方法论非常关键

多模态单细胞组学
- 基因表达：scRNA-seq（单细胞RNA测序）
- 染色质可及性：通过测序技术如ATAC-seq来测量。
- DNA甲基化：通过单细胞甲基化测序（scM&T-seq）来测量。
- 染色体构象：通过Hi-C技术来测量。
- 核小体占据：通过单细胞ChIP测序等技术来测量。

这些技术在单细胞水平上为我们提供了一个全面的生物学图景，使我们能够理解在单个细胞内基因是如何被调控的

多模态深度生成模型（四种）
- 潜在因子分解
- 联合生成
- 交叉生成
- 协同

在这里插入图片描述

简单介绍了一下他们实验室的模型
- DANQ：identify非编码区的DNA序列功能
- D-GEX：预测基因表达
- FactorNet：预测转录因子在全基因组中的结合
  - 通过大量ChIP-seq analysis的数据，训练，来预测特定细胞类型方式中的转录因子集合类型
- scFAN
  - 单细胞上的转录因子结合
  - 感兴趣的是单个细胞上单个转录因子的结合方式
- uFold
  - RNA二级结构预测
- SAILER
  - 生成模型，ATAC-seq数据，表达和染色质数据都是高维数据，包含成千上万个基因/基因组位置的测量值。
  - 这里使用生成模型来学习数据的压缩表示，来揭示基因表达模式背后的隐藏因素（在染色质分析中，它可能有助于理解基因调控元件之间的关系，如增强子和沉默子如何影响基因的表达。）

先介绍一下D-GEX
概述一下VAE如何应用在基因组学的研究
使用生成模型对ATAC-seq分析进行扩展，思考如何从数据集中消除试验性的混杂因素，学习反应生物表征，而不是实验制品。涉及一些新方法
多模态

6.2 D-GEX

6.2.1 Connectivity map project

时间不够了，很快的进行展示

2006年就发起的项目，C-Map，包含了不同小分子药物对培养的人类细胞处理后的基因表达数据

疾病、基因、药物之间的关系。研究人员可以查询某种药物引起的特定基因表达模式，看它是否与某种疾病状态的基因表达模式相匹配，进而发现可能的药物再利用（drug repurposing）机会或新的药物靶点。

后来人们想要将这种方法扩展到大型化学库、不同的基因型、多个细胞系。但是面临基因表达分析十分昂贵的问题

于是提出了**“The 1000-Gene Solution”**，只测量1000个基因（有代表性的）的表达，这可以以高通量和低成本进行，而不是整个基因组中的20000个基因都测。剩余基因的表达模式是推断出来的。

主要思想是，很多基因表达高度相关，所以可以通过小部分，来推测出全基因组的表达模式。

我们通过PCA进行降维，发现少量的主成分，可以解释绝大部分的方差。这样子的方式激发了他们去进行**“The 1000-Gene Solution”**方法的开发

6.2.2 Predicting gene expression from landmark genes

基于cmap

后续他们就开发了深度学习方法，通过已经测量的978个基因，来预测剩余的21000个基因的表达水平

6.3 Deep generative models for genomics

6.3.1 Manifold hypothesis

处理高维数据的技术——流形假设

虽然数据（如生物数据）可能存在于多维空间中，但“真实”的可变性可以在更少的维度中捕获。
- 发现数据的低维表示，这些表示被称为平滑流形。这通过在更少的维度空间中表示数据，同时仍保留原始数据集的内在属性，来简化数据的复杂结构。
流形学习——发现高维数据中低维结构的无监督学习
- 理解大型生物医学数据集更有帮助
NDR（非线性降维）/流形学习的转换
- 其中高维聚类中的数据点被投影到保留某些结构（标记为A和B的簇）的低维空间中。

6.3.2 Autoencoders

生成模型（自编码器、VAE、GAN）

6.3.3 Generative models and variational autoencoders

主要是介绍了VAE，我就不记录了，李宏毅那自己学

在这里插入图片描述

一些相关模型，主要功能是填补缺失值、去噪（如测序错误），学习潜在的细胞表达水平的概率分布等等

scRNA-seq往往是离散的数据集，不是连续的，而且有很多0值，所以人们使用**零膨胀负二项分布（ZINB）**来对其进行建模
跟自编码器的区别就是不是基于高斯分布的，是基于这个ZINB的
除了去噪外，还有处理dropout事件（比如基因有表达但是没测到）
- 处理dropout：通过ZINB分布来建模数据，自编码器不仅能够捕获基因表达的平均水平和变异性，还能专门对dropout事件进行建模。

还有一项类似的工作，不详细介绍

6.4 SAILER

6.4.1 scATAC-seq

在这里插入图片描述

scATAC-seq（单细胞ATAC测序）是一种技术，它可以在单个细胞的水平上评估染色体DNA上区域的可及性。

该技术生成的数据是高维的，并且通常难以解释。

数据分析的第一步通常包括降维和聚类，其目标是学习a representation informative on biological variations，同时对混杂因素保持不变。

6.4.2 SAILER

SAILER方法旨在
- 从多个批次的scATAC-seq数据中提取一个潜在表示（latent representation）
- 同时处理混杂因素
  - 批次效应（Batch information）：不同批次的数据展现出不一致的模式
  - 测序深度（read depth）：不同细胞的测序深度
混杂因素与细胞数据concat，并一同输入到decoder中。
目标是学习一个在混杂因素变化时保持不变的潜在表示，并在训练过程中尽量减少潜在变量和混杂因素之间的互信息

6.4.3 Conditional VAE

这块CVAE具体的数学原理我自己还需要学习，还有如何贴合SAILER这个模型解决的问题（去噪）

VAE的潜在空间的某个维度与已知生物标志物的关联，我们可以验证与特定通路之间的关系。

条件变分自编码器（CVAE）

通过学习输入数据的潜在表示来重构输入数据，同时能够编码与混杂因素（如实验批次或测序深度）无关的信息

该编码器被训练为忽略与混杂因素相关的信息，只编码与生物学变异有关的信息
condition那个部分，一般是指某个特定的实验条件
目标函数：在保留与混杂因素无关的数据表示的同时，最大化条件对数似然（即数据的概率，给定潜在表示和混杂因素）。这通常涉及最小化潜在变量和混杂因素之间的互信息。

在这里插入图片描述

变分损失（Variational loss）:

描述了CVAE的训练过程中需要最小化的损失函数，包括重构误差和潜在空间的正则化项（例如KL散度）。这有助于模型学习如何生成数据的潜在因素，同时忽略不相关的噪声或混杂因素。

在这里插入图片描述

展示了SAILER方法如何用于学习在各种混杂因素存在时的稳健的潜在细胞表征。
- 细胞类型的数量和批次效应。
- 使用降维方法，展示了不同方法（LSI, SCALE, SAILER）对潜在空间的可视化，尝试展示在控制混杂因素如批次效应和测序深度的同时，如何聚集相同类型的细胞。
- 一个表格展示了不同方法之间潜在表征和混杂因素之间的互信息（Mutual Information），互信息越低表示方法越能有效地分离生物变异和混杂因素。
进一步讨论了SAILER如何处理真实的鼠标图谱数据以及如何合并两个不同的鼠脑数据集。
- 在这里，SAILER的性能与其他方法（例如SCALE和SnapATAC）进行了比较。
- 还有可视化图表，显示了在不同数据处理方法下细胞如何分布，以及如何用SAILER来减轻混杂因素的影响。

文章目录

6 第二个讲座：Deep Learning in Gene Expression Analysis

6.1 Introduction

6.2 D-GEX

6.2.1 Connectivity map project

6.2.2 Predicting gene expression from landmark genes

6.3 Deep generative models for genomics

6.3.1 Manifold hypothesis

6.3.2 Autoencoders

6.3.3 Generative models and variational autoencoders

6.4 SAILER

6.4.1 scATAC-seq

6.4.2 SAILER

6.4.3 Conditional VAE

6.5 Multimodal DL for Single Cell Multimodal Omics