目录
摘要:
关键词:
相关工作介绍:
本文的主要工作
数据集和混合神经网络
1. 数据集
2. 蛋白质聚集计算
3. 模型设计
实验和结果
1. 具体步骤
2. 性能评估
3. 实验结果
总结和讨论
名词解释
摘要:
背景:秀丽隐杆线虫的生命阶段预测对抗衰老药物的筛选和基因筛选的研究具有重要意义。但是目前现有的研究多集中在生理变化特征的提取上,缺乏迁移的可能性。本篇论文将线虫的融合蛋白聚集与深度学习相结合,提出了一种将目标检测方法YOLOV3与双线性融合网络相结合的线虫生命阶段分类方法。
我所了解的关于线虫生命阶段的预测方法:
- 、Using Concolutional Neural Networks to Measure the Physiological Age of Caenorhabditis elegans使用InceptionRetNetV2+64层全连接+卷曲或者拉直的全局特征达到平均绝对误差不足1天的进步
- 、线虫形态和年龄的自动分析中 提出了一个自动分析机,系统检测并分割蠕虫,并预测蠕虫内每个像素的身体坐标,使用了U-Net和ResNet模型。
关键词:
线虫 衰老 目标检测
相关工作介绍:
衰老的过程中线虫机体逐渐从细胞、组织甚至个体水平老化。
预测线虫寿命的方法主要有两种:
一种是利用生理变化进行预测。生理特征预测的优点是准确率高,适用于多种突变株。但是生理变化往往局限与线虫本身(吞咽率、图像熵测量、外观测量、运动能力测量和自身荧光测量等等)。
相关工作:
- Stroustrup等人设计了一套线虫生命预测机,通过检测线虫的运动状态和运动能力[7]来判断和预测线虫的寿命。
- Martineau等人从线虫活动的视频中提取了数百个形态、姿势和行为特征,并使用支持向量机[8]来分析它们与线虫寿命[9]之间的直接关系。
- Lin等人拍摄线虫第1天到第14天的照片,并将其分成14组进行分类训练。采用5种常用的卷积神经网络模型进行训练,并添加线虫的体型信息。得到了一种可评估线虫1 ~ 14岁年龄的卷积神经网络模型[10]。
一种是利用生物标志物进行预测。生物标志物主要由与生命相关的基因或携带荧光蛋白的mircroRNA启动子组成。大多数评估预测涉及的基因在人体中也是保守的,并且存在技术迁移的可能性,对预测人体衰老具有潜在的指导意义。
- Pincus等人研究了三种microrna作为衰老生物标志物的效用,实验表明这些microrna可能决定寿命。
- Cen等人研究了线虫基因测序信息、衰老和蛋白聚集性疾病的蛋白表达信息等数据。提出了一种基于朴素贝叶斯[12]的特征选择方法来预测线虫基因对生物寿命[13]的影响。
- Sahand等人也选取生物标志物作为研究对象,利用Mask R-CNN[14]算法识别线虫PVD神经元衰老后出现的神经退行性亚细胞过程,并以此[15]判断线虫当前的生命阶段。
蛋白平衡的调节在阻止蛋白质聚集方面起着重要作用。
本文介绍了一种混合深度神经网络框架,用于预测线虫的寿命。该模型由四部分组成:输入模块、蛋白质聚集特征提取模块、卷积模块和预测模块。通过YOLOv3算法得到目标区域,然后进入帧的输入模块。然后通过蛋白质聚集特征提取模块和卷积模块获取蛋白质聚集信息序列和图像特征。最后,利用预测模块得到线虫生命阶段的概率。
本文的主要工作
- 选择蛋白质聚集作为评价衰老的内在生理指标。将生理变化与生物标记相结合,并使用深度学习工具对线虫的寿命进行分类。
- 是一种新的端到端生命预测框架,结合YOLOV3和改进的B-CNN提取目标的区分区域并学习特征。
- 实验结果表明,在线虫中,蛋白酶稳定机制是一个很好的衰老指标。
数据集和混合神经网络
- 数据集
图片:在荧光显微镜下拍摄的携带外源性荧光素酶融合蛋白的线虫活体图像。
共26批,412只 在线虫的各个生命阶段取线虫的头部、尾部和躯干。
按照生命周期分成25个阶段(0-0.04为一个阶段)虽然这种方式并不完美,但是背后的假设是各种线虫蛋白质聚集和形成的稳态模式相似,但是速率不同。这种假设可以促进数据划分和处理。
由于数据不足,采用组合的方式将数据并起来。
- 蛋白质聚集计算
研究对象:萤火虫荧光素酶蛋白基因转基因的线虫为研究对象。
目的:根据萤火虫荧光素酶融合蛋白的自身荧光,可以判断该蛋白在线虫体内的聚集情况。
- 首先利用斑点检测算法,获得线虫单张显微图像的荧光蛋白半点坐标->计算线虫荧光斑点的浓度信息。
- 首先取线虫荧光光点间距值中最小值的平均值,用计算得到的前n个聚集信息(1,2,…)作为特征向量1,其中如果大于线虫体内荧光蛋白数量,取最大值5000。首先取线虫荧光光点间距值中最小值的平均值,用计算得到的前n个聚集信息(1,2,…)作为特征向量1,其中如果大于线虫体内荧光蛋白数量,取最大值5000,说明你检测到的聚集信息比实际存在的荧光蛋白更多,为了避免过度估计设置最大值为5000.
- 当线虫寿命在前1/3时,荧光蛋白斑点数不超过10个;当线虫寿命在后1/3时,荧光蛋白斑点数超过60个,有的甚至能表达数百个荧光蛋白亮点。
- 模型设计
本文提出一种基于YOLOV3和特征融合的双线性细粒度分类算法
- 使用重新训练的的YOLOV3算法对目标进行粗略检测(在其他的论文中,利用u-net和restnet进行粗粒度,将线虫从背景中剪切出来)得到目标区域,然后通过背景抑制将图像中的与细粒度图像分类无关的区域过滤掉。
- 改进B-CNN的双线性网络,融合不同信道和不同卷积层的特征,加强双向网络之间的空间连接,丰富层间的交互,充分表达特征信息,提高识别率。
与其他的论文一样,不仅要关注局部特征,也要关注线虫体轮廓和蛋白质分布密度的变化(要关注局部特征也要关注全局特征)
本文的解决方法是加入传统图像特征提取算法获得的聚合信息来弥补全局特征的缺失
YOLOv3目标检测算法:
采用的网络模型是DarkNet-53网络共有75层,使用了一系列3*3,1*1的卷积,其中包括53个卷积层,其余都是残差层。剩余模块采用层跃连接的方法形成。
YOLOv3将输入图像分割成大小相等的S*S网格。当目标落入某一网格时,网格作为相应的检测任务。同时,计算出三个不同尺度的预测盒来检测不同尺度的目标。
预测框的信息:
每个预测框包含5 + C个信息值,其中C是数据集中目标类别的总数,5代表目标的中心点位置坐标(x, y)、预测框的宽度和高度(w, h)以及置信度。
置信度用于表示目标在网格内的概率。
综合起来,如果考虑一个预测框包含的信息,可以表示为 (x, y, w, h, Confidence, Class Probabilities)。这些信息用于描述模型对图像中目标位置和类别的预测。
对于公式中的 "5 + C",其中的 5 表示目标位置和置信度,而 C 表示每个目标类别的概率。这个公式确保了每个预测框都能够包含足够的信息,以便在目标检测任务中进行综合的分析。
目标检测的置信度公式
目标存在性概率(Pr(object)):
这一项表示模型认为目标中心点是否在当前网格内。如果目标的中心在网格内,那么 Pr(object) 就等于1,表示模型相信目标存在。如果目标中心不在网格内,那么 Pr(object) 就等于0。
目标类别的概率(Pr(class | object)):
这一项表示在目标存在的前提下,模型认为预测框属于某个类别的概率。这个条件概率使得置信度不仅仅取决于目标存在性,还取决于目标的类别。
交并比(IoU):
IoU 衡量了预测框与实际目标框之间的重叠程度。当 IoU 较高时,说明预测框较好地覆盖了真实目标,增加了模型对该框包含目标的信心。
非极大值抑制(NMS):
NMS 用于选择最终的检测框,确保最终的结果中不会包含过多重叠的框。这一步骤有助于去除冗余的检测结果,使最终的结果更加准确。
- CNN:
F=(fa,fb,P,C)
Fa,fb,代表双线性卷积神经网络A和B的特征提取函数,P是池化函数,C是通过softmax归一化层进行分类的函数。
该过程通过映射关系将输入图像L和位置区域I转换成一个c*D的向量,然后通过特征提取函数fa,fb得到的特征进行外积操作,从而得到相应位置的双线性特征向量。池化函数P整合了获得的双线性特征,其目的是获得一个用于细粒度分类的特征函数。池化过程采用了在图像上每个相应位置累积双线性特征的方法,计算如下:
y(I)=∑l∈L(i,I,fa,fb)?
改进B-CNN:
具体改进过程如下:首先,双线性网络A和B的conv4和conv5中的每一层通过加法操作连接到一个conv层。其次,添加两个新的双线性层,对相加提取的特征向量进行外积运算,得到双线性向量;如图3所示,通过对网络A中conv4和conv5的融合特征进行外积运算得到双线性特征B2,通过对网络b中conv4和conv5的融合特征进行外积运算得到双线性特征B3。利用Concat将得到的三组不同双线性向量进行连接和融合。即将之前卷积层融合得到的特征B2、B3与原双线性网络中的特征B1进行串联,得到特征向量F2。
实验和结果
- 具体步骤
利用特征融合方法对改进的 B-CNN 进行训练的具体步骤:
1.目标区域提取:
使用 YOLOv3 网络对秀丽隐杆线虫的图像进行目标检测,提取目标的判别区域。
2.YOLOv3 调试和微调:
使用 ImageNet 数据集的预训练模型对 YOLOv3 的 DarkNet-53 网络进行调试。然后,利用本文提到的 C.elegans 数据集对整个 YOLOv3 模型进行微调训练。
在微调过程中,将输入图像缩放到统一的像素大小。学习速率初始设置为 0.01,在训练过程中,当训练迭代次数达到 150 时,学习率降低到 0.001,衰减率设为 0.001,脉冲值设为 0.1。
3.训练参数设置:
为了提高训练速度,采用批处理,设置批大小为 16。每次从数据集中随机选择 16 个样本输入模型进行训练。
4.训练迭代次数:
训练迭代次数总共设置为 500 次。
对改进的B-CNN模型的相关参数进行微调,包括将分类类别数改为3个类别,并采用随机分配的方法对最后一层的参数进行初始化和训练。采用随机梯度下降(SGD)、[22]和反向传播(BP)算法对整个网络模型进行调整和训练。
- 性能评估
- 实验结果
对网络进行分割,使线虫蛋白聚集(PA)计算模块输出的特征向量1和B-CNN模块输出的特征向量2分别发送给Softmax分类器。首先,对本文的数据集进行生命阶段三分类实验。秀丽隐杆线虫的生命阶段平均分为早期、中期和晚期。表Ⅰ为消融实验结果。结果表明,添加蛋白质聚集特征比未添加蛋白质聚集特征的分类准确率提高了10.09%,说明添加蛋白质聚集特征有助于改善线虫生命阶段的分类结果。
总结和讨论
在最接近自然培养条件下,得到了移动性较强的老化评价体系,3组下的准确率约为75.33%。本文提出了一种基于深度神经网络和蛋白质聚集的混合预测线虫寿命的方法。通过消融实验,我们发现混合深度神经网络明显优于单一聚合信息和单一神经网络。因为,混合深度神经网络可以捕获线虫的局部特征,并计算荧光蛋白聚集的信息,以弥补其全局特征的损失。但该系统是否具有生理特征预测的跨线预测能力尚未得到验证,这将是后续实验的重点之一。
此外,研究蛋白稳态过程中蛋白质翻译、蛋白质折叠、蛋白质转运和蛋白质降解的变化对蛋白质聚集的影响可以进一步优化评价体系。除proteostasis之外的其他机制是否可以在衰老预测中发挥作用,是否可以将其整合到系统中以提高性能,都是未来的研究方向。
名词解释
背景抑制:
背景抑制的目的是去除与细粒度图像分类无关的背景信息。这可能包括一些杂乱的、不相关的区域,这些区域在细粒度分类任务中可能干扰准确的目标识别。
B-CNN:
Bilinear Convolutional Neural Network(B-CNN)是一种深度学习模型,特别是用于图像分类任务的变体。B-CNN 使用了双线性池化(bilinear pooling)的方法,以捕获输入图像中的更复杂的信息。
让我们逐步解释一下:
双线性池化(Bilinear Pooling):
双线性池化是一种结合两个特征图的池化方法。在图像处理中,通常使用池化层来减小特征图的维度。双线性池化考虑了两个特征图之间的交互信息,通过计算它们的外积来丰富特征表示。这有助于捕获不同区域之间的关系,特别是在图像分类等任务中。
B-CNN模型:
B-CNN 使用了双线性池化作为其关键组件。在传统的CNN中,通常使用卷积层和池化层来提取和降维特征。B-CNN 在这个基础上引入了双线性池化,以改善模型对输入图像的建模能力。
B-CNN 通常应用于图像分类任务,其中通过学习更复杂的特征表示,模型能够更好地区分不同的图像类别。
总体而言,B-CNN 是一种通过引入双线性池化来改进特征表示的卷积神经网络。这种结构有助于提高模型对输入图像的建模能力,特别是在处理涉及复杂关系的任务时。