基于先验信息感知学习的能谱CT及物质定量智能成像算法

时间：2024-07-28

段政，李丹阳，曾栋，边兆英，马建华

1南方医科大学生物医学工程学院，广东广州 510515；2广州市医用放射成像与检测技术重点实验室，广东广州 510515

与传统CT相比，能谱CT能够区分不同光子的能量并在一次扫描下同步采集多能谱通道（Bin）的数据［1］，利用额外的光谱信息和能量衰减特异性，可以鉴别和定量人体组织中软组织、骨骼和造影剂等不同材料，因此在临床应用领域［2-5］受到广泛关注。然而能谱CT基物质分解算法常对能谱CT图像噪声敏感，求解在数学上是病态的，分解后图像中的噪声统计分布与CT图像高度相关，积累了CT图像的噪声且降低了信号的大小，导致分解后的基物质图像信噪比严重下降［6,7］。

针对该问题，多种方法被提出。根据重建和分解过程的先后顺序，可分为一步重建分解方法［8］、基于投影域［9］和基于图像域［10］的两步分解方法。然而，一步重建分解方法模型计算量大，且不能并行计算；基于投影域的分解方法存在不能充分利用基物质图像先验信息且分解质量不稳定的缺点，基于图像域的分解方法面临分解噪声激增和容易引入了非线性误差的缺点。基于数据驱动的方法通过端对端网络学习多能图像与基物质图像之间的非线性映射，获得广泛关注。根据有无标签图像训练网络分为监督式［11-15］和自监督式［16］两种类型。然而，监督式深度学习方法需要大量配对训练数据，在样本数量有限的情况下，模型容易过拟合产生失真，分解精度极大受限；自监督深度学习方法依赖数据的先验信息以及数据分布，缺少真值约束，容易造成网络学习出现偏差，局部复杂结构的噪声抑制效果容易受到影响，分解结果不稳定。

鉴于此，受到近期有监督方法和自监督方法应用于低剂量CT恢复任务的启发［17-21］，我们提出基于先验信息感知学习的能谱CT半监督物质定量智能成像算法（SLMD-Net），通过耦合监督子模块和自监督学习子模块，共享网络参数权重，可以充分关注结构先验特征信息以提升对临床数据中复杂结构的分解性能和泛化性能。有监督子模块使用均方误差（MSE）函数构建标签数据和网络输出结果之间的损失函数。由于基物质图像空间存在分段光滑的性质，自监督子模块根据基物质图像稀疏性引入全变分损失（TV）作为正则化项,以及引入加权最小二乘函数构建一致性损失目标函数，最终，监督和自监督损失函数分别以加权的形式整合到半监督网络中。收敛性分析、对比实验、小样本实验以及抗噪声鲁棒性实验证明了SLMD-Net可以有效改善基物质图像的质量，模型的收敛性能和泛化性能得到提升。

1 材料和方法

1.1 能谱CT物质分解模型

基于图像域的分解假设CT像素空间中线性衰减系数μ(E)是由有效质量衰减系数和密度的加权线性组合，对此，基物质分解可以构建为以下矩阵形式［22］：

但这会产生严重的噪声和伪影［23］。

1.2 物质分解半监督学习框架

针对信噪比严重退化的基物质图像，本文提出基于先验信息感知学习的能谱CT半监督物质定量智能成像算框架（SLMD-Net），如图1所示，包括监督子模块和自监督子模块。

1.2.1 监督子模块当给定有标签样本时，成对的训练数据中含有丰富的结构特征信息，深度学习网络可以有效提取相应特征。为此，我们设计了一种深度网络模型fθ(·) 用于刻画样本空间（即低质量的基物质图像）与期望空间（即相应的高质量图像）之间的潜在关系，并估计高质量的图像，通过最小化MSE函数来优化训练网络模型，损失函数定义如下:

1.2.2 自监督子模块由于医学图像标记数据是昂贵的，且端对端有监督的训练方法通常对训练数据的大小、类型及噪声分布特性很敏感，l2范数容易使图像出现过拟合的现象。为此，我们提出基于自监督的方法，通过学习大量无标签数据的先验特性等潜在信息对基物质图像质量进行恢复，从而减少网络对特定数据集分布的依赖性。当没有给定样本真值时，目标是通过网络训练来学习非配对数据的隐藏特征分布。由于材料图像的分段平滑性，TV正则化项可用于感知图像边缘信息。由此可构造无监督损失函数来降低基图像噪声。无监督损失函数包含2个部分，一是通过加权最小二乘的方法对数据一致性进行约束，二是通过全变分构建基物质图像的稀疏性，以抑制分解后的图像噪声并保持边缘清晰度。加权最小二乘损失函数和全变分正则化表达式为：

其中‖ ‖·TV表示全变分范数，对于二维图像p，其全变分的计算公式为：

因此，SLMD-Net方法的损失函数为：

其中，α、β、γ分别为无监督部分、骨基图TV正则化项LTV-B和软组织基图TV正则化项LTV-S的权衡超参数权重。

1.3 实验数据

为验证所提SLMD-Net方法在能谱CT物质分解中的有效性和准确性，本文利用真实病人数据仿真的双能CT数据进行实验。

1.3.1 数据集构建病人数据来源于地方附属医院且每个病人均签订了临床研究知情协议。采集设备为GE公司的Discovery750 HD宝石能谱CT，对25位患有冠状动脉粥样硬化的患者进行双能CT增强扫描以获得基物质标签数据集。其中，高、低能量管电压分别设置为140 kVp和80 kVp，管电流设置为360 mA，扫描部位从胸部至腹部，共874层数据。数据集构建需要对已有的骨骼和软组织基物质图像进行低剂量能谱CT仿真得到含噪声的CT数据以及基于传统模型驱动的直接求逆方法后信噪比退化的基物质图像。数据集被划分为训练集、验证集和测试集。训练过程中，随机选取400张低剂量能谱CT图像分解的基物质图像与高剂量CT图像分解得到的基物质图像组成的训练数据对，用于基于数据驱动的有监督子模块的训练；随机选取另外400张基物质图像作为训练集，用于自监督子模块的训练。另外分别随机选取50，24张的剩余病人数据分别作为验证集和测试集，验证网络的性能。

1.3.2 能谱CT仿真公式（8）为能谱CT成像模型：

N0为入射光子数，S(E)为归一化X射线能谱，EL、EH分别为该能量区间的上下阈值，表示X射线积分路径。单能下对应基物质线性衰减系数和质量衰减系数是通过美国国家标准技术研究院（NIST）网站查找得到［24］。根据该模型进行能谱CT扫描仿真。首先需要X射线能谱仿真，利用SPEKTR工具箱仿真出140 kVp连续能谱曲线，能量间隔为1 keV，球管内置1.6 mm 厚的Al材料过滤器，并归一化X射线光谱得到。其次是分别扫描临床高剂量分解的骨和软组织密度图像得到密度线积分弦图图像。扫描阈值设置为20，58，140 keV，其中相等数目的光子被划分到2 个能量区间。CT成像扫描参数设置如下：（1）X射线源-探测器距离为946.7460 mm，X射线源-中心距离为538.52 mm；（2）均匀扫描360度，获得984个投影角度的扫描图；（3）沿平行X射线束放置888个探测器通道。投影数据使用Fessler工具包仿真得到。为产生噪声投影，在模拟的无噪声投影中加入泊松噪声模拟量子噪声。总光子量设置为3×105。最后再进行负对数变换和滤波反投影（FBP）重建出两个能量Bins的CT图像。

其中I0为空气扫描时的光子数，P是对原始数据进行负对数变换后的弦图。为提升材料的定量精度，通常选择质量衰减系数相差较大的物质组成分解矩阵，这可以减小分解矩阵的条件数。在低剂量情况下用双能CT分解双物质的实验来验证模型的性能。

1.4 实验设置

1.4.1 网络结构（U-Net）由于U-Net网络在医学小样本任务中表现优异，双通道U-Net网络［25］被用于物质分解深度网络主体。如图1所示，输入和输出的通道数目分别是2，其中输入对应为两种不同能量下双能CT图像直接分解得到的两种质量退化的基物质图像，输入大小为512×512，输出为经过网络训练学习后得到增强的两种高质量基物质图像。U-Net网络的特征图变化分为编码和解码两个过程，之间通过跳跃连接突出有效特征。编码过程包含4个卷积特征提取模块和4个下采样模块。特征提取模块由一个卷积单元和一个残差单元构成，每个单元块由一个大小为3×3的卷积核卷积层、批量归一化和ReLU（Rectified Linear Unit）激活函数构成，卷积块用于扩展通道数目和特征提取。特征图下采样使用尺寸大小为2×2的最大池化层（Max Pooling），特征图的分辨率下降一半，下采样过程中特征图感知域大小分别为256×256，128×128，64×64和32×32。编码器主要通过3×3大小的反卷积层对特征图进行上采样，减少特征图的同时扩大特征图尺寸。输出层采用1×1卷积层，激活函数为Sigmoid。为了学习噪声图像和干净图像的残差特性，同时为了减少网络训练过程中由于网络过深导致梯度消失或者爆炸带来的训练困难问题，我们在输出层后加了一层残差层。

1.4.2 训练参数设置网络在pytorch1.9.0 框架下训练［26］，使用CUDA 加速，计算机硬件使用一个内存为12G的NVIDIA Tesla K40C图像处理单元（GPU）进行训练，采用Adam优化器，初始学习率设置为1×10-3，批处理参数（batch size）设置为5，训练次数（epoch）设置为200，训练共耗时10 h，以确保目标函数收敛。

1.4.3 超参数设置为评估损失函数中不同的超参数对选择对本文所提出模型性能的影响，我们设计了三组不同的超参数（α、β和γ）组合进行定量评估，分别固定一个参数为1×10-4，然后将另外两个参数设置为梯度变化的值[10,1,10-1,10-2,10-3]进行训练。然后使用测试集数据对SLMD-Net测试的PSNR值进行对比。

1.4.4 噪声水平设置为评估SLMD-Net在不同噪声水平下的性能，设计一组不同噪声水平的实验，分别采用原来入射光子数3×105及其1/2、1/3、1/5进行仿真。

1.5 定量评价指标

1.5.1 定量评估为定量评价所提算法的性能，采用均方根误差（RMSE），峰值信噪比（PSNR）［27］和特征相似性指数（FSIM）［28］对分解的基物质图像进行定量分析，其定义如下：

其中P、Q分别表示去噪的图像和真值图像。m、n分别表示图像的长和宽。

其中，k表示图像的二进制位数，k在本实验中为8，除数为均方误差（MSE）。PSNR常用于测量最大信号和背景噪声强度的比值，相比RMSE可以检测图像少量平移带来的误差，PSNR值越大，表示去噪的图像失真越小，噪声去除效果越明显。

其中，SL(x)=[SPC(x)]α[SG(x)]β表示相位一致性特征和梯度特征。PCm(x)=max(PC1(x),PC1(x)) 表示图像的显著相位一致性，Ω 表示图像空间域。FSIM可以很好的刻画局部结构，用于衡量两幅图像的结构相似性，当指标值越接近1，表示两幅图像特征越相似。

1.5.2 专家主观图像质量评估为了进一步评估不同分解方法在临床的应用，本研究邀请4位影像专家对不同方法分解的基物质图像进行质量评估。我们采用双盲图像质量评估策略，各个专家综合考虑分解准确度、噪声和伪影抑制程度以及结构、边缘的保持情况，使用1～10 Likert量表进行独立双盲打分，其中10代表最高分为10分，最低分为1分。

1.6 对比方法

为验证SLMD-Net的性能，本文与3种模型驱动方法：基于FBP算法重建图像直接求逆法（FBP-DI）、最小二乘迭代求解法（PWLS-PCG）［29］、基于E3DTV正则化项的图像域分解方法（E3DTV）［30］；1种基于模型的自监督（UNTV-Net）算法，1种基于半监督学习的循环一致性生成对抗网络（Semi-CycleGAN）［31,32］以及2种数据驱动有监督深度网络：CT图像直接分解的蝴蝶式交互卷积神经网络（BFCNN）［11］和使用最小二乘损失函数的有监督网络（SUMD-Net）。SUMD-Net的网络结构与本文所提出的SLMD-Net相同，为了从定性和定量两方面对比SUMD-Net和SLMD-Net的性能，本文特意设计两组实验：一组实验中SUMD-Net（50%）和SLMD-Net用于训练的有标签数据量相等，另一组实验中SUMD-Net（100%）用于训练的有标签数据量两倍于SLMD-Net。为了公平比较，上述方法均使用相同的训练数据进行训练，UNTV-Net和SUMD-Net使用与SLMD-Net相同的超参数，BFCNN、PWLS-PCG和E3DTV根据实验结果确定使用最优的超参数。

1.7 统计学方法

对4位临床影像科专家评分求平均数和标准差，并采用MATLAB R2022a进行Mann-Whitney-Wilcoxon检验统计分析，以验证SLMD-Net方法与其他分解方法之间分解性能差异，P＜0.05表示差异具有统计学意义。

2 结果

2.1 算法收敛性分析

图2展示了200个epochs中训练模型在验证集上的分解结果、对应的PSNR平均测量值与Loss函数曲线，迭代25 epochs左右均趋近于收敛。

图2 Loss函数和PSNR收敛性能分析Fig.2 Convergence performance analysis of Loss function and PSNR.

2.2 超参数灵敏度分析实验

图3展示不同超参数组合的定量结果的热力分布图。当α=1×10-4时，骨基图和软组织基图最高可分别达到32.2±0.98和29.28±3.62；当α固定时，当γ值较低时，骨基图对小的β值较为敏感，当γ值较高时，骨基图对较大的β值更为敏感。软组织基图的敏感区域与骨基图相反。当β=1×10-4时，骨基图和软组织基图最高可分别达到32.0±0.74和29.06±4.18；当α＜1×10-1且β≥1×10-2时，骨基图和软组织基图对超参数的变化敏感性降低。当γ=1×10-4时，骨基图和软组织基图最高可分别达到32.90±0.75和29.37±4.59。两种基图在设置α＞1×10-2且β＜1×10-1的范围内敏感性增强，PSNR 值出现较大波动。将超参数α设置为1×10-2，β设置为1×10-1，γ设置为1×10-2，以保证较优的模型性能。

图3 不同α、β和γ的超参数组合训练的SLMD-Net模型在测试集上的平均PSNR热力分布图Fig.3 Heat maps of the average PSNR of the SLMD-Net model trained by the test datasets with combinations of different α,β and γ.

2.3 抗噪声鲁棒性测试实验

图4显示4种噪声水平下SLMD-Net基物质分解的结果。随着光子量的降低，模型驱动方法分解的图像质量严重下降，噪声掩盖结构信息，SLMD-Net仍能有效恢复图像质量并保证基物质图像的分解精度。当光子数N0=3×105时，SLMD-Net在图像质量和定量PSNR指标上有更优的去噪性能。由此该噪声水平的数据验证模型的有效性。

图4 SLMD-Net在不同噪声水平下对基物质分解结果与网络输入和真值标签的对比Fig.4 Comparison of the quantitative results of SLMD-Net basic material quantitative analysis with network inputs and truth labels under different noise levels.

2.4 不同比例实验

图5展示了不同比例有标签：无标签的样本（有标签：无标签数据之比分别为1∶4，1∶2，1∶1和2∶1）参与训练时，SLMD-Net在测试集数据上的分解结果。第1、2行分别1是骨和软组织基图，从左至右有标签的数据不断增多，无标签数据逐渐减少。表1为不同比例数据训练的模型对测试集进行测试的定量分析结果。当无标签比例较大时，无监督子模块的信息较多，图像细微的血管结构区域存在过模糊现象；当无标签数据占比较小时，局部结构细节恢复相对更丰富。当有标签和无标签的数据比例从2∶1变化为1∶1时，半监督模型的性能有了较大的提升，但从1∶1变化到2∶1时，有标签的数据量依赖性大大增加但模型变化提升较小，具有接近的性能。有监督和无监督数据量之比为1∶1时相比2∶1时有标签数据更少，与其他方法对比更能体现半监督方法性能上的优势。

表1 不同比例的数据进行半监督训练物质分解结果的PSNR，FSIM和RMSE结果对比Tab.1 Quantitative metrics (PSNE,FSIM and RMSE) of material decomposition results produced by the SLMD-Net method under different proportions of training labeled and unlabeled data

图5 病人仿真能谱CT划分不同（有标签数据：无监督数据）比例情况下训练SLMD-Net模型得到的分解结果对比Fig.5 Comparison of basic material decomposition results of SLMD-Net trained by different proportions between labeled and unlabeled data based on patient spectral CT simulation data.

2.5 对比方法对病人数据分解结果分析

图6给出了采用能谱CT基物质分解数据集获得的分解结果并展示了感兴趣区域ROI的差值图像（红色方框标示）、突变区域的剖线图（蓝色直线标示），骨基图和软组织基图的显示窗位设置为[0.25,1]和[0,1]。第1和第3行分别展示了病人的骨基图，第2和第4行分别展示病人的软组织基图。图中分别展示了8种对比方法以及SLMD-Net的分解结果，最后展示骨基图和软组织基图的真值图像。结果中FBP-DI的基图像信噪比严重下降，存在噪声和伪影掩盖掉解剖结构信息的现象。PWLS-PCG一定程度上能抑制噪声，但是边缘部分仍然存在错分现象，分解误差较大。E3DTV对CT图像进行去噪造成分解图像区域过度平滑而错分，局部产生严重的块状伪影。BFCNN对背景噪声有很大程度上的抑制，但是骨头和软组织部分区域的密度值偏小。UNTV-Net骨部分存在过平滑现象，软组织部分仍存在噪声，细节结构恢复效果不佳，在抑制噪声与伪影的同时也造成了图像边缘等细节信息的丢失。SUMD-Net（50%）在标签的约束下对背景噪声有一定的抑制作用，但局部存在过拟合，存在严重偏差，完全数据量训练的网络模型SUMD-Net（100%）可以很好地恢复图像细节，但是骨头部分还是存在少量的偏差。Semi-CycleGAN在软组织部分的去噪性能较差，骨基图局部的分解误差较大。SLMD-Net能同步去除不同基图上放大的噪声并更好地保持微小解剖结构，骨与软组织边缘分解精度有很大提升。表2为不同分解方法在病人数据测试集上定量结果PSNR、FSIM和RMSE的平均值+标准差。在同等配对标签数据量下，SLMD-Net相比其他7种算法具有更高的RMSE、PSNR和FSIM值，且SLMD-Net性能接近于在两倍数量级有标签数据上训练的有监督网络SUMD-Net(100%)的性能，具有很好的抗过拟合效果。

图6 病人仿真能谱CT通过不同方法获得的基物质分解结果比较Fig.6 Comparison of basic material decomposition results of different algorithms based on patient spectral CT simulation data.

表2 测试集中不同方法分解骨基图和软组织基图的PSNR，FSIM和RMSE定量评估结果Tab.2 Quantitative evaluation results of PSNR,FSIM and RMSE for material decomposition of bone and soft tissue basic maps using different methods in the testing dataset

表3和表4分别显示骨基图和软组织基图不同噪声水平下其他7 个对比方法和本文SLMD-Net 方法的PSNR定量结果。当光子量降低，分解模型受图像噪声的影响显著增强，大多数模型的测试结果PSNR值会下降到20左右甚至更低。与其他方法相比，当光子量显著降低时SLMD-Net依然能保持相对稳定的分解性能。

表3 不同噪声水平下不同方法物质分解结果骨基图的定量指标（PSNR值）Tab.3 Quantitative metrics(PSNR Value)of material decomposition results produced by different methods under different noise levels

表4 不同噪声水平下不同方法物质分解结果软组织基图的定量指标（PSNR值）Tab.4 PSNR of material decomposition results produced by different methods under different noise levels

2.6 主观质量评估

表5为不同分解方法骨基图和软组织基图以及真值图像的主观质量评估平均值和标准差以及SLMDNet 与其他对比方法之间分数的惠来特尼U 检验结果。可以看到，SLMD-Net在骨和软组织基图中图像质量评分分别为8.63和9.00，仅次于真值的结果，较其他方法有很大的提升，并且与其他7种对比方法分解基物质结果的评分差异均具有统计学意义（P＜0.05）。SLMD-Net评分优于两倍数量级标签数据训练的有监督网络SUMD-Net（100%）的结果，且两种方法不具有显著差异（P=0.50）。

表5 通过不同基物质分解方法分解的基物质图像质量评估结果与统计分析Tab.5 Image quality evaluation results of basic material images using different material decomposition methods

3 讨论

针对基于模型驱动的传统分解方法和基于数据驱动的深度网络两类分解方法的特性，对于物质分解产生的强噪声伪影以及大量无标签数据无法用于有监督网络进行物质分解等问题，本文创新性地提出了基于先验信息感知学习的半监督能谱CT物质定量智能成像算法，采用深度学习的分解框架，为充分开发无标签数据的噪声特性应用于物质分解图像质量优化的潜力，从分解过程中噪声的传播角度出发，针对CT图像求逆变换后质量退化的基物质图像构建半监督学习网络，该方法结合有监督式和无监督式方法的优点，通过深度网络感知学习无标签图像数据一致性信息获得数据的噪声特性和不同基物质相邻像素间差分信息获得数据的先验特性构建约束，加权融合到基于MSE损失的有监督的训练中，大大增强网络的学习能力。

我们在临床数据仿真的能谱CT上定性和定量评估了SLMD-Net的有效性。实验结果表明，SLMD-Net可以有效降低标签数据的依赖性强的问题以及提升模型的泛化性能，提升图像局部区域的边缘保持能力以及分解精度，减少图像过平滑。与基于模型驱动的传统分解方法相比，本文提出的方法可以有效改善基物质的噪声放大问题，有效提升分解精度。与基于有监督的数据驱动方法相比，本文的方法可以减少对标签数据的依赖性，同时可以减少MSE函数作为损失函数带来的过平滑现象。SLMD-Net获得的物质定量成像性能相比相同数量级有标签数据训练的完全有监督网络具有更优的性能，性能可接近于使用两倍数量级标签数据训练的有监督网络，进一步说明了SLMD-Net比完全监督学习方法能更好地恢复基物质图像的图像质量。与基于自监督的方法相比，本文的方法因为受到有标签数据的监督提升了分解精度。与基于半监督式的生成对抗网络相比，本文提出的SLMD-Net网络对两种基物质分解总体性能更优，并且提高了局部区域分解的准确性。不同噪声水平实验结果表明SLMD-Net在光子量显著降低时具有鲁棒性。另外，不同比例实验结果表明，当有标签数据不充分时依赖MSE损失函数容易造成模型过拟合现象，通过对无标签数据中的先验特性构建约束，可以提升模型的性能。

综上所述，SLMD-Net算法通过结合模型驱动和数据驱动的方法，对有标签的数据和无标签的数据分别进行建模，具有良好的噪声与伪影抑制及图像边缘保持能力，有效改善基物质图像质量，为能谱CT基物质分解领域提供新思路。另外，本研究在训练数据集和先验特性的正则化参数上存在一定局限性，主要表现在我们仅使用仿真的临床数据得到含噪声的能谱CT数据训练模型；未来将在真实的能谱CT数据上训练和评估模型的性能；自监督部分的基物质先验特性引入了额外的超参数，特别当本方法扩展到多物质分解时，超参数数量增加会提升模型的复杂性；未来将从探测器能谱-空间的冗余特性出发研究更多更优的先验特性引入本文提出的模型框架，进一步提升模型性能。最后，通过细微的修改本文提出的半监督框架可以扩展到CT其他应用领域，如灌注CT成像、低剂量CT等。