时间:2024-05-04
黄诗茜 王峰 王晓洒 周全 赵昕
摘要:随着AlphaGo在2017年的中国乌镇围棋峰会上战胜了世界围棋冠军柯洁之后,AlphaGo名声大噪,深度学习再次掀起了学习和研究的热潮。而卷积神经网络作为深度学习中重要的分支,在计算机视觉中有着广泛且深刻的应用,其中包括图像分割和图像识别。中医中药是我国几千年流传下来的传统医疗手段,作为中华文化的传统瑰宝,其在人们的日常保健和疾病治疗中发挥着不可磨灭的作用。而舌诊作为一种非侵入式的诊察手段,在中医临床诊疗中有重要地位。医生可以通过观看舌象来了解病人体内病例变化,但是,诊断结果受医生主观经验和光照环境影响较大。因此,借助计算机方法来辅助诊断显得十分必要。
关键词:卷积神经网络;深度学习;中医舌诊
中图分类号:TP3 文献标识码:A
文章编号:1009-3044(2020)26-0020-03
中医的诊断方法有四种分别为望诊、闻诊、问诊和切诊,又称为“望闻问切”法。其中望舌是中医诊断疾病方法的特色之一,属于望诊。舌诊主要是通过观看舌质和舌苔的颜色、形状来做出病理判断。众所周知,人体五脏六腑通过经脉直接或间接与舌有联系,中国古代有“脉有假脉,舌无假舌”的论述。因此,研究舌诊在临床医学上有重要意义。
“中医药现代化”是国家长期科技发展中提出的研究课题。2019年10月25日***对中医药工作做出了重要指示指出:中国药学包含着中华民族几千年的健康养生理念及其实践经验,要加快推进中医药现代化、产业化。推动中医药走向世界,使中国传统的医学医药被更多人熟悉了解和接受。因此,将人工智能技术与中医药结合应用,有利于推动中医药的高质量发展,有利于加快中医药在世界范围内广泛应用的进程。
1 卷积神经网络发展历程
1.1 卷积神经网络的基本原理
1.1.1 卷积层的操作
CNN最重要的构建块是卷积层。卷积层采取的是局部连接、参数共享的办法,这样可以解决参数过度的问题。
假设图片为单通道时,卷积核相当于一个滤波器,卷积核表示卷积神经元,里面的数值表示的是卷积神经元的权重参数,它的值是需要通过反向传播算法计算训练而得到。卷积核在输入图像上从左到右,从上到下滑动计算,对应卷积核的值与输入图像的值相乘再相加。而且,输出特征图的大小等于输入图像的大小减去卷积核大小再加一。假设图片为三通道时,卷积的计算过程也类似,只不过它是分别进行三个通道的卷积计算,然后再将对应点的值相加而得到。
1.1.2 池化层的操作
池化操作和卷积操作类似,池化层的目的是通过对输入图像进行二次采样以减少计算负载、内存利用率和参数数量(从而降低过拟合的风险)。减小输入图像的大小同样可以使神经网络容忍一定的图像位移。池化神经元没有权重,也就是池化核里面没有值。池化神经元所做的事情就是使用聚合函数(比如max或者mean)聚合输入。
最大值池化操作(max聚合)的计算过程:在池化层中,池化核一般设置与步长一致,池化核在输入图像上从左到右,从上到下滑动,然后取最大值,就是最大值池化操作。在池化操作的过程中,一般不会采取补零操作,因此会丢弃部分值。
平均值池化操作(mean聚合)与最大值池化操作相同,只是池化核在输入图像中从左到右、从上到下滑动的过程中,不是取最大值,而是取核对应位置的平均值。
1.2 几种经典的卷积神经网络结构
卷积神经网络得到发展的一个重要里程碑是Yann LeCun等人发表于1998年的论文。该论文提出了广泛用于手写数据识别(MNIST)数据集的经典LeNet-5[[1]]架构。它的架构主要包括一个输入层,三个卷积层,两个平均池化层和一个全连接层以及一个输出层,其中卷积层和池化层交错排列。这个模型为后面的神经网络架构奠定了基础。但是,在这之后的十年间里,神经网络的研究发展趋于停滞,原因是当时的研究人员发现对于多层的神经网络来说使用反向传播算法的训练需要庞大的计算量,而在当时的技术水平下很难实现[[2]];而且当时基于SVM的浅层机器学习算法有惊人的表现,SVM功能强大并且全面使得它在那段时间成为最受欢迎的模型之一。因此,对卷积神经网络的研究搁置了很长的一段时间。
直到在2012年的ILSVRC竞赛中,Alex Krizhevsky等人提出的一种AlexNet架构以大比分赢得了比赛,卷积神经网络才再次出现在人们的视野中。它和LeNet-5架构很相似,只是比它更深。它直接将卷积层堆叠到其他层之上,而不是在每个卷积层之上堆叠池化层。并且采用了当时新提出的“dropout”的正则化方法。
之后卷积神经网络的发展都是围绕着ILSVRC竞赛而发展。并且神经网络的结构越来越深。在2013年由Matthem Zeiler 和Rob Fergus提出的ZF Net架构赢得了当年ILSVRC的挑战赛。它本质上是AlexNet,只是调整了一些超参数(特征图的数量、内核大小、步幅)而已。Google研究部的Christian Szegedy等人开发了GoogLeNet[[3]]架构,将Top-5错误率降到了7%而赢得了2014年的ILSVRC挑战赛。它引入了一种称为初始化模块的子网,该模块使得GoogleNet比前面提及的架构更加有效地使用参数。然后就是由Kaiming He等人开发并获得2015年ILSVRC竞赛冠军的残差网络,又称为ResNet[[4]]架构。它使用了一个由152层组成得非常深的CNN,使得Top-5错误率降到3.6%。之所以能取得如此傲人的成果是因为使用了跳过连接(也称为快捷连接),也就是输入到一个层中的信号也被添加到位于堆栈上方的层的输出端,这使得它能够训练如此深的网络。而后要提及的就是GoogleNet架构的一个变体Xception[[5]]架构,这是Francois Chollet于2016年提出的,Xception网络架构的核心是深度可分离卷积。深度可分离卷积结构提出了空间模式和跨通道模式是可以单独分别输入的。2017年7月26日,ILSVRC竞赛官网正式宣布,IamgeNet大规模挑战赛于2017年正式结束。这标志着在计算机视觉乃至整个人工智能发展史上建立了一个阶段性里程碑,这个时代暂时落下了帷幕,此后的发展將专注于目前尚未解决的问题。而在最后一届ILSVRC竞赛的冠军模型是SENet。
2 卷积神经网络在中医舌诊中的应用
2.1 卷积神经网络应用于舌型标定和分割
2.1.1 基于全卷积神经网络的舌型分割
全卷积网络(FCN)由卷积神经网络(CNN)进化得来,全卷积神经网络的结构可以用(卷积层+(可选)池化层)*N+反卷积层*K来表示,它与卷积神经网络不同的点在于它包含有反卷积层。卷积层和池化层的操作会使得输出的尺寸不断变小,而反卷积层就可以逆向,使得输出的尺寸变大,这样就可以使得开始的输入和输出的尺寸相等。这可以很好地应用在图像分割上面。在王丽冉[[6]]等人发表的《面向舌体分割的两个阶段卷积神经网络设计》一文中正是使用了全卷积神经网络来分割舌体,主要分为两个阶段:一个是粗分割一个是精分割。在粗分割阶段采用了普通的卷积神经网络构架,即由卷积层和全连接层构成的框架,从舌象图片的相似背景中提取出舌体的区域,这个过程也就是对舌体进行标定,这样减少了舌体周边组织对舌体分割造成的影响。在精分割阶段采用了卷积层和反卷积层构成的全卷积神经网络的框架,粗分割阶段得到的结果作为这一阶段的输入,使得舌体可以精准地分割出来。
2.1.2 基于卷积专家网络的舌型标定和分割
卷积专家网络(CEN)是Amir Zadeh[[7]]等人于2017年发表的论文中提及的一种新颖的局部检测器。该文中提到传统的面部标记点检测模型是局部约束模型(CLM),但是这种模型受到表情、光照、面部毛发和化妆等因素的影响而表现不及基于级联回归的方法。作者认为,CLM存在局限的原因是它使用的局部检测器对于复杂变化的局部标记特征点无法建模。因此他们提出了卷积专家网络作为新颖的局部检测器,从而提出了基于卷积专家网络的局部约束模型(CE-CLM),这种模型恰好可以弥补CLM的不足。这个模型结合卷积专家网络和三维点云分布模型实现精准定位进而提高图像分割的精度。其中卷积专家网络与普通卷积神经网络不同点在于,其在普通卷积层的基础上叠加了一个专家层(ME层),专家层可以混合学习一个集合来捕获感兴趣区域的变化,因而对标定点的变化具有鲁棒性。可以考虑将这个算法的模型应用于舌象的标定和分割,可以实现对舌头各部分进行定位和分割,然后提取舌头各部分的特征进行诊断,使得诊断结果更加全面可靠。同时可以实现自动分割,大大减少人为标定分割的成本,为后续的研究提供充足的舌象数据集。
2.2 卷积神经网络应用于舌象分类和预测
舌是人体健康的晴雨表。舌头由舌质和舌苔组成。舌质是舌的肌肉经脉组织而舌苔是舌面上附着的苔状物。在中医舌诊中,主要看舌质和舌苔的颜色形状和形态。由于个体的差异性,根据舌象的不同划分为不同的体质一直存有争议。大部分情况下,可以将舌象简单地分类为正常、寒症和热症。而现在,在中医诊疗中普遍认可王琦教授针对舌象而划分的九种体质。这九种体质分别为:平和质、气虚质、阳虚质、阴虚质、痰湿质、湿热质、津亏质、气滞质、血瘀质。
如今深度学习的框架不断发展,目前主流的深度学习框架有 TensorFlow,pytorch,Caffe,Keras等,这些框架为深度学习模型的搭建提供了接口,而且里面集成了许多经典的卷积神经网络架构。因此可以在这些深度学习的框架中使用卷积神经网络的模型对舌象进行分类。目前,已经有科研人员直接使用深度层卷积神经网络对舌象图片进行模型的训练和分类。但是直接训练深层的卷积神经网络模型需要大量的训练集,而且训练集还需要带有医生诊断的标签,而收集和标定大量数据集的过程是很难实现的。
所以,从头开始训练一个非常庞大的深层神经网络是不明智的,大多时候应该试着去找一个能处理相似问题的已有的神经网络,然后重用它的低层网络,这叫作迁移学习。迁移学习可以协助人类解决小样本分类问题,使用在海量数据集上训练好的模型对小样本进行特征提取,再用特征微调全连接神经网络降低利用深度网络解决问题的难度系数[[8]]。不少研究者对舌象的分类都是基于迁移学习来实现的[8-9]。通过重用经典的卷积神经网络结构的低层连接权重,然后应用数据增强的手段让图片对旋转、平移和放缩具有一定的鲁棒性。再将自己的顶层添加到模型中就可以实现迁移学习了。
3 总结
本文首先对卷积神经网络的原理和它的几种经典架构进行了阐述,然后分别介绍了卷积神经网络在舌象分割和舌象分类两个方面的应用。其中穿插讲解了其他一些方法的优缺点。中医药学是中国几千年文化所积淀下来的庞大理论体系,而舌诊仅仅作为其中的一部分。卷积神经网络可以应用在中医上面的远远不止舌诊这一个方面,甚至还可以将其应用在脉诊、面诊、目诊和手诊上面。中医药文化博大精深,不是简简单单通过训练一个模型就能完全将病人的病症诊断出来的。而且个体存在差异,更多地需要医生经验的判断。因此这只能作为辅助诊断的技术。倘若未来想要实现中医诊疗的完全自动化、智能化,做这些还远远不够,还需要考虑方方面面的因素,来提高诊断的可靠性。
参考文献:
[1] LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[2] 俞颂华.卷积神经网络的发展与应用综述[J].信息通信,2019,32(2):39-43.
[3] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[J].Proceedings of the IEEE conference on computer vision and pattern recognition,2015:1-9.
[4] He K M,Zhang X Y,Ren S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).27-30 June 2016,Las Vegas,NV,USA.IEEE,2016:770-778.
[5] Chollet F.Xception:deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).21-26 July 2017,Honolulu,HI,USA.IEEE,2017:1800-1807.
[6] 王丽冉,汤一平,陈朋,等.面向舌体分割的两阶段卷积神经网络设计[J].中国图象图形学报,2018,23(10):1571-1581.
[7] Zadeh A,Lim Y C,Baltru?aitis T,et al.Convolutional experts constrained local model for 3D facial landmark detection[C]//2017 IEEE International Conference on Computer Vision Workshops (ICCVW).22-29 Oct.2017,Venice,Italy.IEEE,2017:2519-2528.
[8] 杨晶东,张朋.基于迁移学习的全连接神经网络舌象分类方法[J].第二军医大学学报,2018,39(8):897-902.
[9] 胡继礼,阚红星.基于卷积神经网络的舌象分类[J].安慶师范大学学报(自然科学版),2018,24(4):44-49.
【通联编辑:代影】
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!