TA2NN：一种基于自编码的B 超乳腺肿瘤识别神经网络模型

时间：2024-05-04

孔德仕

（四川大学计算机学院，成都610065）

0 引言

乳腺癌发病率在女性癌症中占据首位，并且呈逐年上升趋势，乳腺肿瘤的良恶性识别对于乳腺癌的诊断及防治研究都具有重要的科学意义和临床价值。B超是常见的影像检测手段，较X 射线检查、CT、核磁共振等其他方式，其成本更低、效率更高且对人体无危害，因此被广泛应用于乳腺肿瘤的临床检验。但超声图像分辨率和对比度较低，并且存在一定的斑纹噪声，这些造影缺陷导致了医生很难通过B 超图像准确地辨别肿瘤是良性还是恶性的，导致检测结果准确度较低，假阳性率较高。

早期的B 超乳腺识别采用SVM 等传统的浅层机器学习方法。该方法首先从原始图像中提取出纹理、灰度、轮廓形态等一系列初始特征，接着通过特征工程技术对初始特征进行筛选保留冗余度低且相关性高的优秀特征，最后将这些特征输入SVM、逻辑回归等分类器进行样本良恶性的识别。浅层机器学习方法的初始特征是人工设计的，很难准确表达样本特性，这限制了模型的识别准确率。随着深度学习的发展，卷积神经网络也广泛地应用于医学图像处理领域。但是已有的卷积神经网络模型直接应用于B 超乳腺识别存在一些问题。①难以适用于小样本数据集。不同于自然图像数据，带有准确标签的医学图像样本数量很少，VGG16、Inception 等多参数、多层数的复杂卷积神经网络模型很容易出现过拟合，使模型泛化性降低。②低维特征容易损失。在卷积神经网络中由于多次的卷积及下采样操作，样本的低维特征很容易损失，致使最终的识别准确度下降。③鲁棒性较差。B 超图像一般存在符合瑞利分布的乘性噪声，已有的卷积神经网络模型抗噪性能较差，当输入样本存在较大噪声时，模型的识别准确率会受到影响，甚至低于基准水平，失去参考价值。基于上述问题，本文提出了一种新的神经网络模型TA2NN（Transfer Auto-encoder Neural Network with 2 Streams）。该模型对输入样本进行了处理，将原始图像分解为一副高分辨的中心窗口图像以及一副低分辨率的原始图像。其次，预训练了2 个降噪自编码器，并将其编码部分迁移到TA2NN 上进行特征提取。实验结果表明，TA2NN 较基准方法有着更高的识别率，并且具有很好的鲁棒性。

1 TA2NN模型

1.1 模型架构

如图1 所示，TA2NN 是存在2 个支流的多流神经网络模型。模型的输入为一幅未经过降噪处理的B 超图像，记作O_IMG。单一的输入图像将被分解为2 幅子图：肿瘤中心区域图像C_IMG 以及低分辨率的原始输入图像D_IMG。C_IMG 输入至一个预训练的降噪自编码器DAE_C 进行低维特征的提取；D_IMG 输入至另一个降噪自编码器DAE_D 进行高维特征的提取。TA2NN 的顶端接入一个全连接的分类器，其输入为DAE_C 与DAE_D 输出的特征，输出为一个区间为[0,1]的浮点数OUTPUT，其值大于0.5，识别结果为良性，反之为恶性。

图1 TA2NN模型架构

1.2 图像分解

临床上常通过肿瘤内部的钙化情况以及肿瘤边界轮廓的规则程度去判别肿瘤是否为恶性。从图像上观察肿瘤内部呈现大面积的弱回声，即灰度值明显低于肿瘤外侧的组织。一些高灰度值的白色斑点，或斑块等呈现强回声的白色区域以某种未知分布出现于肿瘤内部区域。白色区域大概率为肿瘤的钙化灶，医生可以根据其数量及分布，来辨别肿瘤是否为恶性。但由于多数钙化灶及乳腺结节的直径小于1 厘米，如果进行多次下采样提取特征，肿瘤内部的钙化细节将严重损失。因此，以图像中心剪裁出一副保留原始分辨率的尺寸为原图像一半的窗口图像C_IMG，它能够保留肿瘤内部大量的细节信息。O_IMG 用三阶张量进行表示，O_IMG=[W,H,C]。其中W 为图像的宽度，H 为图像的高度，C 为图像的通道数。C_IMG 可表示为：

相对于肿瘤内部信息，肿瘤的边界轮廓是一种具有平移不变性的空间层次特征，后续将通过多层的卷积操作及下采样操作对其进行高维特征提取。考虑到C_IMG 已经保留了肿瘤内部信息，TA2NN 将原始图像O_IMG 进行2 倍下采样获取降质图像D_IMG：

其中，D_IMGM为D_IMG 的某个像素点，NM是D_IMGM在原图像O_IMG 中对应的邻域，为一个2×2的窗口。低分率的D_IMG 损失了部分肿瘤内部细节，但是轮廓较为清晰。D_IMG 能在不影响后续轮廓特征提取的前提下，将原图像的尺寸降低了2 倍，提升训练效率的同时能够在一定程度降低网络模型参数数量，抑制过拟合。其次，将低质量的图像作为输入能够提升模型的鲁棒性。

1.3 降噪自编码

自编码器（Auto-Encoder）是一种特殊的网络模型。它采用有监督学习的方式去实现无监督学习，输入一副原始图像，自编码器通过一种对称的网络结构将输入进行复现。其数学表达式为：

自编码器由一个编码器encoder 与一个解码器decoder 组成，θ 为模型中的一系列参数，L(xi,x~i)为输入与输出之间的损失，其值越小则表示输出与输入越接近，换言之即原图像的还原程度更高。自编码器的核心在于encoder 部分，它能够将原始图像进行压缩并提取出有效特征，因此基于迁移学习的思想，TA2NN 将预先训练好的encoder 嵌套到网络结构中，用以高效地提取乳腺肿瘤的特征。为了提升模型的抗噪能力，在原始输入中添加了噪声。

其中z 为添加的噪声，B 超图像中的斑纹噪声一般服从瑞利分布，因此噪声z 由如下公式产生：

a,b 为两个常量参数，U(0,1)为一个均匀分布。在1.2 小节中，阐述了C_IMG 是肿瘤内部尺寸较小的细节，因此需要提取低维特征；D_IMG 刚好相反，边缘轮廓是一种高维的空间层次特征。结合上述情况，设计了2 个不同的降噪自编码器DAE_C 与DAE_D。

DAE_C 的编码器采用了2 层卷积层以及一个2倍下采样的最大池化层。卷积操作如下所示。

其中G 为生成的特征映射图，f 为原始图像，h 为卷积核（一个3×3 的矩阵）。DAE_D 需要提取高维的边缘轮廓特征，其深度深于DAE_C 的编码器，在每一次卷积操作之后都进行了下采样，增大了感受野，最终能够获取到肿瘤的形态轮廓特征。DAE_C 与DAE_D的网络架构如图3 所示。

图3 降噪编码器DAE_C与DAE_D

1.4 模型实现

训练集采用来自华西医院的B 超乳腺图像，总共1078 张乳腺肿瘤B 超ROI 图像，511 张恶性样本及567 张良性样本，每幅图像包含了乳腺肿瘤及其周边组织。

（1）将乳腺B 超图像进行预处理，将其灰度值调整为0 到1 之间的浮点数，将其灰度值除以255，尺寸调整为224×224。

（2）对DAE_C 与DAE_D 进行预训练。降噪自编码器的损失函数使用均方根误差（RMSE）。并在原始输入中加入基于瑞利分布的乘性噪声。

（3）将预训练好的DAE_C 与DAE_D 中的编码部分嵌套至TA2NN 中，用以特征提取。TA2NN 的顶端接入一个全连接的分类器，最后一层采用sigmoid 函数进行激活，用以输出一个0 至1 之间的浮点数。

（4）由于样本数量较少，使用5 折交叉验证进行训练及评估。B 超乳腺肿瘤识别本质上是一个良恶性的二分类问题，因此采用二元交叉熵（binary cross entropy）作为损失函数，其公式为：

2 实验分析与评估

2.1 准确度评估

本文提出了3 种常规的神经网络模型作为基准方法。

基准方法1：VGG16，VGG16 由Karen Simonyan和Andrew Zisserman 于2014 年开发，对于ImageNet，它是一种简单而又广泛使用的卷积神经网络架构。

基准方法2：Inception，Inception 是一种流行的多尺度特征提取的网络架构，它由Google 的Christian Szegedy 等人于2013-2014 年开发。

基准方法3：baseCNN，考虑到基准方法1、2 均是复杂的卷积神经网络架构，因此baseCNN 采用简单的卷积神经网络仅有4 个卷积层及最大池化层，在此基础上加入了残差连接（residual connection）。残差连接也是一种解决特征缺失及表示瓶颈的常见方法之一。

实验评估指标采用：准确度、敏感度、特异度。其公式为：

准确度=（TP+TN）/（TP+TN+FP+FN）

敏感度=TP/（TP+FN）

特异度=TN/（TN+FP）

其中，TP（True Positive）：被正确识别的良性样本个数；TN（True Negative）：被正确识别的恶性样本个数；FP（False Positive）：被错误识别的良性样本个数；FN（False Negative）：被错误识别的恶性样本个数。3 个基准方法与TA2NN 基于一个样本数量为611（良性311，恶性300）的测试集进行模型评估，其结果如表1 所示。

表1 准确度评估

从表1 中可以看出，TA2NN 的准确度及敏感度优于基准方法，表明其整体识别率较高，并且对于假阴性的识别度高，能够减少漏判几率。Inception 的特异度最高，证明其很大程度上能够降低假阳性的概率，减少错判几率。Inception 是基准方法中识别效果最好的方法，主要原因在于Inception 能够提取多尺度多维度的空间特征，但是由于Inception 针对自然图像进行开发，是一种极深极广的复杂卷积神经网络，在小样本的医学图像识别问题中很容易出现过拟合，导致泛化性较差。

2.2 鲁棒性评估

对测试集中的样本加上不同程度的瑞利噪声，接着根据模型的准确度来评估其抗噪能力。实验结果如表2 所示。

表2 鲁棒性评估

表2 中出现0.1，0.3 等浮点数为施加噪声的强度，很明显看出TA2NN 的鲁棒性显著优于基准方法，即使在加入很大噪声的情况下依旧能够保证一定的准确度，但基准方法的准确度已经接近50%，在临床上失去参考价值。之所以TA2NN 具有较强的鲁棒性，是因为降噪自编码器的迁移，以及采用一张下采样的降质图像加入到输入中，使得模型能够在分布较大噪声的低质量图像中提取出有用的特征。

3 结语

本文研究分析了B 超乳腺肿瘤的内部构造及边缘轮廓等先验知识，提出了一种基于降噪自编码的多流卷积神经网络模型：TA2NN。通过将原始输入分解成一幅下采样降质图与一幅中心裁剪图，并迁移使用了预训练的降噪自编码器，提取出了高维的轮廓特征以及低维的肿瘤内部特征，使得肿瘤良恶性的识别准确度以及模型鲁棒性均有较为明显的提升。