基于Fisher向量和混合描述符的胎盘成熟度分级

时间：2024-08-31

姜峰倪东陈思平姚远汪天富* 雷柏英*

1(深圳大学生物医学工程学院，广东省生物医学信息检测和超声成像重点实验室，广东深圳 518060)2(深圳妇幼保健院超声科，南方医科大学附属医院，广东深圳 518060)

引言

胎盘是妊娠过程中不可忽视的重要器官，与胎儿生长和孕妇的健康密切相关。母体和胎儿间的物质交换通过胎盘的血液循环进行。胎盘功能障碍会阻碍胎儿的正常生长发育，产生严重的后果，如胎儿宫内生长受限、死产和妊娠并发症等[1]。B型超声(BUS)成像因其非侵入、无辐射和低成本的特性而被广泛运用于产前检测和诊断[2-5]。目前，检查胎儿生长受限主要依赖于超声，并且对胎盘内部功能情况知之甚少。因此，准确有效的胎盘成熟度分级(PMG)在临床上是非常重要的。现有的PMG方法大多依赖于临床医生的主观判断，这容易造成误诊、漏诊。所以，客观的PMG方法就显得尤为重要，实现PMG的定量化和智能化是降低对操作者依赖的有效途径。

图1 胎盘成熟度BUS和CDE图像。从左到右依次为0级、1级、2级和3级；从上到下依次为BUS和CDE。Fig.1 BUS and CDE images for PMG, from left to right: grade 0, 1, 2 and 3; from top to bottom: BUS and CDE.

BUS成像在自动PMG中起着关键作用，因而得到了越来越多的关注[6-7]，其主要原因是BUS成像不用造影剂就可以显示钙化程度和相关信息。但是，仅仅使用BUS图像并不能为PMG提供所有的信息。在妊娠14周以后，胎盘中会出现很多微血管，这些血管与胎盘成熟度密切相关。彩色多普勒能量(CDE)图像能够提供丰富的血流信息。因此，选择同时使用BUS和CDE图像以提高PMG的性能。但是，在BUS和CDE图像中都存在类内差异大、类间差异小的问题(如图1所示)，这使得分级任务变得更加困难。为了应对这个挑战，研究人员提出了各种方法。例如，Grannum等基于BUS图像提出了第一个PMG基准，并提供了具体的评估指南[8]。目前的PMG方法大多先用手工描述符来表示图像，如尺度不变特征变换(SIFT)、Haar和方向梯度直方图(HOG)，并进一步用视觉词袋[9](BoVW)、局部聚合描述符向量[10](VLAD)或Fisher向量[11-12](FV)等传统的方法对这些描述符进行编码，获得稳定的特征表示。此外，其他一些研究基于上述做法提出优化策略来进一步增强PMG性能。例如，Li等提出了一种基于密集描述符(如DAISY和密集采样)的PMG方法[13]。Lei等利用FV[14]结合不变描述符进行PMG并取得了不错的结果。然而，这些传统的方法只专注于低级的手工特征，这对PMG任务来说是不够的。

为了提取深层特征，现在比较流行的方法是使用深度卷积神经网络(CNN)来做深层PMG表达[15-17]。相比于传统的机器学习方法，CNN可以从大规模数据集中自动提取高级特征。此外，一些研究显示迁移的深度卷积描述具有更强的视觉描述能力[18-19]。在大型数据集上预训练的网络经过微调后，应用到目标任务中，可以增强系统的表达能力[20-21]。因此，笔者提出一种基于混合描述符和迁移学习的PMG方法。手工特征和CNN特征可以有效地表达不同等级的信息。传统的DSIFT描述符能提取密集的局部特征，包含了大量底层信息，而CNN能从中间卷积层中提取高级特征，同时迁移学习的应用进一步提高了模型的泛化能力。将DSIFT特征和深层局部特征串联，并用FV进行编码可以进一步地改善图像表达的判别能力。笔者提出的方法在自己采集的胎盘超声数据集上进行了实验，其结果显示要优于传统的机器学习方法。

1 方法

本研究的主要任务是对胎盘成熟度做精确的分级，创新点在于将手工特征和CNN特征进行融合，并引入迁移学习来提高网络的性能，结合FV编码来对胎盘成熟度进行自动分级。下面将会对整个研究所用到的方法进行详细的介绍，包括卷积神经网络原理及结构、数据增强方法、迁移学习、特征融合以及FV编码。

1.1 深度卷积神经网络

受到人类大脑神经网络的启发，CNN在图像识别和物体检测领域已经取得了显著的成功[22-23]。相比传统的人工神经网络，CNN利用局部感受野而不是全局感知。卷积层的每个神经元感知图像的局部区域，这些局部关系在更高层被整合成全局信息。此外，CNN的权值共享策略减少了参数量和计算量。CNN拥有多个学习层，每个学习层可以获取一定的图像特征，越高层的学习层学习到的特征越抽象，表达能力也越强。

卷积层是CNN的主要部分，其中包含了许多神经元。每个神经元中都会有一组权值和一个偏差，这些参数是由网络训练得到的。在卷积层中激活的局部感受野被送入下一层的神经元中。假定xi(m)是第m层的第i个神经元的输出，且xn(m-1)(n=1,N)表示第m-1层的输出。每个神经元输出可以表示为

(1)

式中：win(m)是第m-1层中与第n个特征图相关的权值，b(m)表示第m层的偏差；f(*)是激活函数，这里使用的是修正线性单元(ReLU)。

池化层和全连接(FC)层也是CNN的重要组成部分。ReLU层可以认为是卷积层的附加层，softmax层接在最后一个全连接层后面。一般地，池化层位于连续的两个卷积层之间，用于缩小特征图的输出尺寸并减少参数。相比卷积层，FC层的神经元与上一层的所有神经元完全相连。CNN主要分两步：特征提取和分类。卷积层被用作特征提取器以获得高级描述符，再利用这些描述符将图像转换成特定的特征表达。假设Xi(i=1,…,I)是输入图像，Gi∈{1,…，K}是与输入Xi对应的真实标签，损失函数表示为

(2)

(k=1,…,K)

(3)

式中：p(Xi∈Ck|w,b)表示输入Xi的概率；Ck是第k个类别；1{Gi=Ck}是一个指示函数，当Xi=Gi时函数输出为1，否则为0；ft是softmax层前一个FC层的输出。

本研究中，通过改变VGGNet的参数，探索3种模型结构，分别命名为CNN-8、CNN-16和CNN-19。然而网络越深，梯度消失的问题就越严重。因此，采用迁移学习策略取代随机初始化方法进行网络训练。这样可以避免完全重新训练网络，不仅节省了时间和资源，而且提高了网络的泛化性能。因为这3个网络的结构是相似的，所以只展示了最复杂的网络结构(即CNN-19)，如表1所示。表中Conv表示卷积，MP表示最大池化(max pooling)，s表示步长。可以看出，CNN模型是由16层卷积层、5层池化层和3层FC层组成。卷积层的卷积核大小均为3×3，步长为1；池化层采用的是最大池化，滤波器大小均为2×2，步长和滤波器尺寸一致。FC层的通道数设为1 024。

表1 CNN模型结构Tab.1 Architecture of the CNN models

1.2 数据增强

正如大家所知，深度学习是一种数据驱动的方法，需要大量的训练数据。从某种程度上来说，数据量的大小可以直接决定网络的质量。而医学图像由于各种限制，如病例过少、病人隐私问题等，大量收集数据是十分困难的，此外还需要拥有丰富临床经验的医生对每张图像进行标注，这使得大规模医学图像数据集的构建面临重重挑战。对于有限的医学图像数据集，可以对其进行多种变换处理来增大数据量。这种数据增强方法能够大大扩充训练数据，从而解决因医学图像数据量过少而导致无法训练出有效网络模型的问题。

本研究采用裁剪的方式进行数据增强。原始图像大小为1 031像素×777像素，先对其做预处理，去除噪声，提取ROI区域并调整尺寸后得到700像素×500像素的图像。接下来，对提取的图像先自上而下、自左而右地裁剪成多个448像素×448像素的子图像。由于收集到的4个等级的胎盘数据数量不一，存在数据集分布不均匀的问题，所以裁剪的步长设置也不同，4类数据对应的横向步长分别为63、42、28和21个像素，纵向步长均为26个像素，裁剪完可分别得到15、21、30和39张子图像。由于网络需要输入固定尺寸的图像，所以最后再将所有448像素×448像素的子图像调整为224像素×224像素。这种数据增强方法的流程如图2所示。

图2 所提方法的流程Fig.2 Flowchart of our proposed method

1.3 迁移学习

尽管CNN拥有卓越的特征表达能力，但是它也受限于数据集规模。在训练集规模不足时，基于完全监督学习的深度网络会面临过拟合的问题，这会大大降低系统的性能。已有的研究[19, 21]显示，迁移学习可以有效地解决此问题。其有效性依赖于CNN不同层中特征的层次性，对于低层的抽象信息有很多的共性。受此启发，先使用公开的大规模数据集对网络进行预训练，然后将预训练网络的所有卷积层迁移到网络中作为初始参数，再使用自己的PMG数据集对网络进行微调。相比深层的抽象特征，浅层的特征更具普适性。此处可以忽视预训练图像和胎盘图像之间分层特征的不一致性。

迁移学习普遍的策略是基于大量自然图像训练一个基础网络，然后将前l层移至目标网络相应层。目标网络的其他层则使用随机初始化来设置参数。目前主要有两种迁移学习方法，第一种是考虑将迁移层作为一个特征提取器，内部参数不做改变，用目标数据集仅更新其他层的参数。另一种是用笔者的数据集在训练网络的过程中对迁移层进行微调。前者适用于目标数据集与预训练数据集相似的情况。然而，胎盘图像和自然图像之间存在着巨大的差异，本研究中使用后者以获得更好的参数。具体而言，我们将预训练的VGG-8、VGG-16和VGG-19的所有卷积层迁移到网络中，修改相应的网络结构，FC层使用随机初始化方法设置初始参数，再用数据集进行微调，得到CNN-8、CNN-16和CNN-19模型。

1.4 特征融合

尽管CNN能够提取高级抽象的特征，但是在数据量有限的情况下，训练出的模型也不是最优的，那么分级效果也会不尽人意。即使进行了数据增强，大量重复的子图像能给网络性能带来的优化也是有限的。低级的手工特征如DSIFT可以提取密集的局部描述符，可以有效提高PMG性能。这些局部描述符也包含了大量相关信息，可以作为CNN高级特征的补充来提高整个分级系统的性能。

首先，依照上述步骤对输入图像X进行处理，可以得到调整后大小为224像素×224像素的图像Xi，再将第i个输入图像Xi放入预训练网络的前向传播通道。在第l个卷积层Ll，获得wi(l)×hi(l)×d(l)的特征图Mi(l)，其中wi(l)、hi(l)和d(l)分别表示为特征图的宽、长和深度。假定a=(ax,ay)表示每个位置上神经元的输出，其中1≤ax≤wi(l)且1≤ay≤hi(l)。fi,a(l)表示特征向量。对于第i个处理后的图像Xi，其在卷积层Ll的特征向量可表示为

Fi(l)={fi,(l)(1,1),…,fi,(l)(wli,hli)}∈wi(l)×hi(l)×d(l)

(4)

用Si表示从图像Xi中提取的一组密集SIFT描述符。混合特征由Hi={Fi(l),Si}求得，其中Fi(l)的维度较大，需要先调整其维度，使得与Si的维度一致。接着使用FV对融合特征进行编码，为最终的分级获取一个全局特征表达。通过混合高斯模型(GMM)进行FV编码以获得深层描述符的先验概率。

1.5 Fisher向量编码

如图2所示，FV是一个能够有效表达局部特征的编码方法，使用的是Fisher内核。对取自CNN卷积层的局部图像特征和手工特征进行编码，以便使用如欧几里得距离等常用度量进行研究和比较。将FV作为全局特征编码器对混合描述符进行编码以表达图像。对于从图像Xi中获取的Hi，GMM聚类的第一阶和第二阶导数可以表示为

(k=1,2,…,K)

(6)

式中：pk、μk和σk分别表示为先验概率、平均向量和协方差矩阵，N表示一个胎盘图像中混合特征的数量，βnk是特征向量hn相对于第k个聚类的软分配。

通过将υk和νk串联在一起，可以得到特征表达，即

(7)

1.6 评价方法

为了评估所提方法的性能，使用BUS图像和CDE图像设计PMG实验。所有图像均由深圳妇幼保健医院超声科的西门子Acuson S2000采集而来。一共596张胎盘图像，孕周在16～38周之间。其中0级胎盘包括212例BUS图像和21例CDE图像；1级胎盘包括160例BUS图像和20例CDE图像；2级胎盘包括105例BUS图像和24例CDE图像；3级胎盘包括43例BUS图像和11例CDE图像。随机将每类图像的80%用于训练，20%用于测试，分别合并后得到训练集和测试集。每张图像都是由临床经验超过5年的超声医师通过常规超声检查采集的。通过使用MatConvNet和Vlfeat工具包在Matlab平台上训练模型。使用的计算机内存为128GB，拥有一块GeForce GTX 1080 Ti GPU。用于评估模型性能的指标包括平均精度(mAP)、特异性、灵敏度和精确度。性能度量的计算方法与参考文献[24]中方法相同。

2 结果

为了评估和比较混合特征的分级性能，将FV编码和SVM与混合特征相结合来评估结果。混合特征中CNN的特征取自网络中最后一个卷积层(所有CNN模型都是经过微调的)。实验中采用3种fisher核，包括线性(Linear)、Hellinger′s核(Hell)和x2核(Chi2)。同时，使用DSIFT-FV作为对比实验，以便更好地说明该方法的性能。表2显示了不同模型下胎盘成熟度分级的精确度、灵敏度、特异性和mAP结果。其中，DSIFT-FV表示只使用DSIFT描述符进行特征表达，CNN-8-FV表示只使用CNN卷积特征不用DSIFT描述符，CNN-8-Fusion表示使用混合特征进行分级，其他模型以此类推。

由表2可以看出，使用了混合特征的模型比只使用CNN卷积特征的模型有更好的性能。在混合模型中，CNN作为特征提取器用于提取高级特征，而DSIFT描述符则用于显示医学图像中更多的局部信息来对CNN特征进行补充。此基于混合描述符的方法获得更好结果的原因可概括为以下两点：

1)虽然CNN可以获取高级特征，但是笔者的数据集和预训练网络中使用的训练数据集差异很大，且数量过少，即使进行了数据增强，得到的图像也是大量相似的，因此无法获得较好的微调网络来提取足够有效的特征，这就导致了分级结果次优。

表2 分级结果Tab.2 Grading results

图3 所提出模型的ROC曲线。(a)～(d)分别是0级、1级、2级和3级Fig.3 ROC curves for our models. (a)～(d) are grade 0, grade 1, grade 2 and grade 3, respectively

2)在家知道DSIFT描述符是低级特征，但是它们也包含了胎盘图像大量的底层局部信息，这些信息对于PMG也很重要。因此，DSIFT特征可以对CNN特征进行补充。

CNN的学习层是级联在一起的，网络越深，提取的特征就越抽象也越具判别性。因此深层网络可以获取更高级别的特征，正如表2显示的那样，基于CNN-19网络的模型获得了最佳的分级结果。CNN-19-Fusion模型的精度达到94.15%，这证明了所提出的PMG方法是有效的。显示了其在临床运用上的潜力。图3为模型的ROC曲线，由此进一步地证实了笔者方法的优越性。

3 讨论

本研究提出了一种新颖有效的方法，辅助超声医师进行胎盘成熟度的自动分级，并进行了大量的实验来验证其有效性。在分级实验中，可以看到，加入混合特征的模型在4个指标中均获得了最佳。这是因为深层网络学习到的高级特征具有很强的判别能力，而DSIFT描述符则包含密集的局部信息，两者包含的信息有一定的互补性，融合形成的混合描述符能兼顾彼此的优势，在胎盘图像上能更好地表达。再结合判别式编码方法，进而在胎盘成熟度分级中取得了突出的结果。此外，还使用了迁移学习解决医学图像领域数据量不足的问题，并结合数据增强来综合提升分级的性能。

为了进一步评估所提方法的性能以及CDE图像的辅助效果，输入一张CDE图像作为查询图像，并根据相似度检索出其他图像。图4显示了不同级别的查询图像检索出的结果。通过结果可以看出，检索出的图像和查询图像在视觉上有很高的相似性。这再次证明了用笔者的方法提取的混合特征具有很高的区分性。但仍有些查询图像检索出的结果并不是与之最相似的，主要原因是采集的CDE图像数量有限。2级和3级胎盘的孕周时间短，图像数据也相对较少，这在很大程度上限制了检索结果的准确性。

图4 查询图像与检索出的前8张胎盘图像(每级图像中第一张是查询图像，其他从左往右、从上往下依次按查询得分(相似度)高低排列的检索结果)。(a)0级；(b)1级；(c)2级；(d)3级Fig.4 Query and top eight retrieval placental images (The first one is the query image, while the rest are the retrieval results based on the query scores (similarity) ranked from left to right, top to bottom). (a)Grade 0；(b)Grade 1；(c)Grade 2；(d)Grade 3

尽管笔者的方法取得了一定成果，但仍存在一些限制。首先，图像质量对分级结果的影响很大。采集的图像均取自深圳妇幼保健医院超声科的西门子Acuson S2000，该仪器可以得到质量较高的图像，而针对其他仪器的图像没有进行测试，方法的鲁棒性有待提高。另外，性能的好坏还十分依赖超声医师扫描的水平，经验不足的医师采集到的图像会有很多噪声且目标区域较小。本研究的胎盘图像均由临床经验超过5年的超声医师采集的，对医生的经验依赖较大。最后是图像数量的局限性，本研究收集的胎盘图像十分有限，虽然在一定程度上能够体现方法的分级性能，但是更多的数据则更具说服力和说明性，这也是未来需要改善的地方。

4 结论

本研究中，提出了一种有效的胎盘成熟度分级方法。此方法利用混合特征，同时使用卷积网络特征和DSIFT描述符，以提高不同等级的胎盘图像之间的区分度。笔者进行了大量的实验，验证了此方法的有效性。此研究表明，低级的手工特征也能包含许多重要的局部信息，将其作为CNN特征的补充可以得到更好更有效的表达。在以后的工作中，将探索更加复杂的网络结构，并考虑基于这些网络的其他特征融合方法。