当前位置:首页 期刊杂志

肾小球超微结构分割算法:基于区域级对比学习的深度模型

时间:2024-07-28

林国钰,张桢泰,路艳蒙,耿 舰,周志涛,路利军,曹 蕾

南方医科大学1生物医学工程学院//广东省医学图像处理重点实验室//广东省医学成像与诊断技术工程实验室,2中心实验室,3基础医学院,广东 广州 510515;4广州华银医学检验中心,广东 广州510515

在生物医学研究中,组织和细胞的超微结构形态需要使用超高分辨率的电子显微镜(简称电镜)进行观察[1]。以肾小球超微结构为例,病理专家借助透射电镜,可以从纳米尺度观察到肾小球滤过屏障的损伤、免疫复合物的沉积等病理改变,这些病理改变为肾脏疾病诊断提供关键依据[2]。借助计算机视觉领域的深度学习方法实现对电镜图像中感兴趣超微结构的自动分割,能帮助研究者理解其功能机制,也能辅助临床专家诊断相应疾病。目前已有一些超微结构的分割应用了深度学习的方法,如神经组织[3-5],胞外囊泡[6,7],病毒[8,9]等,但使用深度学习方法分割肾小球超微结构的研究相对较少[10],是一个值得深入探索的领域。然而,由于肾小球超微结构的纹理和形态非常复杂,对其进行手工标记耗时费力,导致训练数据稀缺,深度模型的分割性能难以满足临床需求。

为解决在深度模型训练时所遇到的标记数据稀缺问题,已有大量的研究提供了多种解决方案[11],例如半监督学习[12]、成本有效学习[13]、迁移学习[14]等等。其中,自监督学习方法在近年来受到了相关领域研究者的广泛关注[15-18]。该方法首先使用大量的无标记数据对模型进行预训练,随后将预训练模型迁移到标记数据有限的下游任务中进行微调,以提升模型在标记数据稀缺情况下的性能表现。在众多自监督预训练方法中,对比学习方法[19]得到了非常广泛的研究和应用。该方法依据对比对象间的相似性构建模型的预训练目标,通过拉进相似对象(正例对)和疏远不相似对象(负例对)在表示空间的距离,以学习对比对象间的相似或差异表示。依据对比对象的不同,可将现有的对比学习方法划分为3种类型:图像级、像素级和区域级对比学习方法。MoCo[20]和SimCLR[21]是两种代表性的图像级对比学习方法,两者以“图像”为对比对象构建正负例对进行对比学习。图像级对比学习方法侧重于全局表示,容易忽视局部表示,可能会导致模型对分割目标的边缘分割精度不足。为了促进对局部表示的学习,Wang等[22]和Xie等[23]将对比对象从“图像”转变至“像素”,分别提出了像素级对比学习方法DenseCL和PixPro。但像素级对比学习方法可能过于关注局部表示而忽略了全局表示,导致模型对分割目标的识别能力不足。

为了兼顾模型对分割目标的识别能力和边缘分割能力,Bai等[24]和Hénaff等[25]将对比对象设置为介于“图像”和“像素”之间的“区域”,分别提出了区域级对比学习方法PointCon和DetCon,这两种区域级对比学习方法的主要区别在于区域划分方式。PointCon按照网格将图像均等划分成固定数量的区域,而DetCon则使用传统分割算法,如FH算法[26],来完成区域划分。然而,这些人工设计的区域划分方式难以较好地推广至电镜图像,如基于固定网格的划分方式对于包含复杂超微结构的电镜图像来说过于简单,基于传统分割算法的划分方式需要精细地调参,甚至重新设计才能较好地应用于电镜图像。

为了解决上述问题,本文提出了一种基于超微结构语义相似性的区域级对比学习方法USRegCon,该方法要求模型依据图像中超微结构的语义相似性,自适应地将图像划分为多个超微结构区域,学习并提取不同数据扩增视角下相同区域内超微结构的相似表示和不同区域间超微结构的差异表示。USRegCon在对模型分割性能的提升上超过了多种现有的图像级、像素级和区域级对比学习方法,且逼近基于大规模标记数据集ImageNet的全监督预训练方法。

1 材料和方法

1.1 实验数据

本研究为回顾性研究,从广州华银医学检验中心和南方医科大学中心实验室共采集了19 239份肾活检电镜图像,所有数据已经过脱敏处理,患者个人隐私信息已全部去除。本文的目标任务为分割肾小球滤过屏障的3层超微结构,包括基底膜、内皮细胞和足细胞(图1)。由于电镜图像的对比度低,3层超微结构的形态纹理复杂,标记难度大且成本高,现阶段病理专家仅完成了其中311份电镜图像(简称L-GlomEM)的标记,用于深度模型的监督训练。然而,L-GlomEM过小的数据量难以满足深度模型的训练需求,因此本文通过自监督对比学习方法,将剩余18 928 份无标记电镜图像(简称UGlomEM)应用于模型预训练,缓解严重的标记数据稀缺问题。

图1 肾小球滤过屏障3层超微结构的分割Fig. 1 Segmentation of 3 ultrastructures of the glomerular filtration barrier.

此外,本研究还将基于ImageNet的全监督预训练方法与本文所提出的方法进行比较。ImageNet[27]是公开的大型自然图像标记数据集,用于2012~2017年视觉识别挑战赛ILSVRC。该数据集的目标任务为1000类别的图像分类任务,一共包含1 281 167份训练数据。由于ImageNet数据规模较大,实验设备有限,实验所使用的ImageNet 全监督预训练模型由Pytorch 官方所提供。

1.2 USRegCon

图2展示了本文所提出的USRegCon的整体框架,该框架由3个步骤组成:(1)自适应区域划分,模型对图像内容信息进行编码和解码,自适应地将图像划分成多个区域;(2)区域表示提取,依据自适应区域划分的结果,提取出每个区域的一阶灰度区域表示和深度语义区域表示;(3)区域表示对比,构建正负区域对进行对比学习。

图2 USRegCon的整体框架Fig. 2 Framework of USRegCon.

式中,θ表示编码器Fθ()∙的参数。随后将zi输入模型的解码器部分Gξ()∙进行解码,解码器依据解码出的超微结构语义相似性,自适应地将图像划分成K个合理的区域。

式中,ξ表示解码器Gξ()∙的参数,pi∈RH×W×K包含K个区域概率图,尺寸大小与图像xi相同。整个区域划分过程由模型自动完成,无需人工设计区域划分算法。

1.2.2 区域表示提取 为了学习电镜图像中更为丰富的区域表示,USRegCon选择了两个层次的区域表示进行提取,分别是浅层的一阶灰度区域表示和深层的深度语义区域表示。

基于原始图像xi和区域概率图pi,使用区域池化RP(∙,∙)提取出K个区域的一阶灰度区域表示∈R。

1.2.3 区域表示对比 由于一阶灰度区域表示和深度语义区域表示所处层次不同,所使用的区域表示对比策略也有所不同。对于一阶灰度区域表示,构建灰度损失函数Lgray,目标是最小化区域内的灰度差异和最大化区域间的灰度差异。

USRegCon最终使用Lgray和Lsema对模型进行联合训练,总损失函数形式为:

1.3 模型结构

实验所使用的深度模型为U型卷积神经网络,该模型常用于医学图像分割任务中,包含编码器和解码器两部分。编码器为标准的ResNet18[28],由5个残差模块构成;解码器则由5个相应的解码模块构成,每个解码模块包含:双线性上采样层,3×3卷积层,BN层和ReLU层。编码器和解码器之间通过“跳跃连接”进行连接,负责融合多尺度特征信息。在自监督对比学习预训练中,编码器最后会额外衔接一个对应任务的池化层和一个两层的多层感知机,将特征图映射成用于对比学习的表示。解码器仅在USRegCon中参与预训练,负责输出区域概率图,而在其它对比学习方法中均不参与预训练。

1.4 模型训练设置

图3展示实验中模型的训练流程,主要包含3个步骤:(a)使用大量无标记数据对模型进行自监督对比学习预训练;(b)将预训练模型参数迁移到下游分割任务;(c)使用数量有限的标记数据对模型进行下游任务微调。所有模型训练都在相同的软硬件环境下进行,具体为:操作系统Ubuntu 18.04.6、CPU 型号Intel(R)Xeon(R)CPU E5-2680 v4、GPU型号NVIDIA GeForce RTX 3090 和编程语言Python3.8。其中,所使用的关键python依赖库包括:albumentations1.0.3、numpy1.20.3、opencv4.5.3、scikit-image0.18.3、scikit-learn1.0、torch1.9.0、torchaudio0.10.0和torchvision0.10.0。

图3 模型训练流程Fig. 3 Training pipeline of the model.

1.4.1 自监督对比学习预训练设置 模型预训练所使用数据集为U-GlomEM,超参数epoch 设置为100,batchsize 设置为16。训练使用的优化器为SGD,momentum 和weight_decay 分别设置为0.99 和0.0001。峰值学习率设置成0.01,使用Onecycle[29]策略对学习率进行动态调节,实现快速收敛。训练所使用的数据扩增方式包括随机旋转、反转、位移、缩放、对比度变换、gamma变换、高斯模糊和高斯噪声,期望模型在强扩增下能学习到更加鲁棒的表示。最后一个epoch的模型参数将会被保存,并迁移至下游分割任务进行微调。在USRegCon预训练中,区域划分数目K是依据分割目标的数量设置的,对于分割目标数量为3的肾小球滤过屏障,K设置为5。

1.4.2 下游任务微调设置 模型微调所使用数据集为LGlomEM,超参数epoch设置为150,batchsize设置为8,其余设置与自监督对比学习预训练设置相同。为了评估模型性能,使用10折交叉验证将L-GlomEM划分成训练集和测试集,然后随机从训练集中抽取20%的数据作为验证集。对在验证集中获得最好结果的模型进行保存,并在测试集上进行测试,整个微调过程重复进行3次。模型微调所使用的损失函数为Dice损失函数[30],模型评估所使用的评估指标为Dice 系数(均数±标准差,%),即Dice coefficient(Mean±SD,%)。所有Dice系数结果均使用Shapiro-Wilk test 进行正态性检验,P<0.05的结果将在后续实验结果表格中使用“*”标记。

2 结果

2.1 不同预训练方法的分割结果

表1展示了不同预训练方法对肾小球滤过屏障3层超微结构的分割结果。所展示的预训练方法包含多种先进的图像级(MoCo和SimCLR)、像素级(DenseCL和PixPro)和区域级(PointCon和DetCon)自监督对比学习方法,以及基于大规模数据集ImageNet的全监督预训练方法(简称ImageNet)。从实验结果中可以看出,所有自监督对比学习方法所获得的分割结果均优于无预训练的随机初始,这得益于将U-GlomEM纳入到了模型的预训练中,使参与训练的数据量提升了约61倍(18 928:311)。本文所提出的USRegCon获得了最好的平均分割结果(79.62±0.09)%,超过了图像级方法MoCo和SimCLR约1.16%和1.11%,像素级方法DenseCL和PixPro 约0.93%和1.09%,以及区域级方法PointCon和DetCon约0.73%和0.89%。此外,虽然ImageNet数据量约为U-GlomEM的68倍(1 281 167:18 928),且包含了人工标记,但ImageNet预训练方法所取得的分割结果仅高于USRegCon约0.12%。

表1 不同预训练方法的分割结果Tab.1 Segmentation results of different pre-training methods

图4进一步展示了不同预训练方法下单位预训练数据对分割结果Dice系数的平均提升量,即相应预训练方法的Dice系数减去随机初始的Dice系数,再除以预训练总数据量。Dice系数平均提升量越高表明了方法对数据的利用效益越高。从图4的结果中可以观察到,本文提出的USRegCon在所有方法中对分割结果Dice系数的平均提升最高,约为1.86×10-4,而ImageNet仅为2.84×10-6。

图4 不同预训练方法的Dice系数平均提升量Fig. 4 Average improvement in Dice coefficient of different pre-training methods.

图5展示了不同预训练方法的可视化分割结果,图中白色箭头指出了分割错误区域。第一、二行展示了肾小球滤过屏障的一般分割场景,可以观察到各方法分割肾小球滤过屏障都出现了不同程度的断裂现象,其中随机初始化(b)、PixPro(f)和PointCon(h)的分割结果还出现了将非目标结构分割为肾小球滤过屏障的错误,而MoCo(d)和USRegCon(i)能较好维持了肾小球滤过屏障的连续形态。第三、四行展示了靠近鲍氏囊壁层的肾小球滤过屏障分割场景,每种方法都能完整地分割出肾小球滤过屏障。但除MoCo(d)以外的其他方法都出现了不同程度的将鲍氏囊壁层分割为肾小球滤过屏障的错误,其中PointCon(h)的此类错误最为严重,而USRegCon(i)的此类错误最轻。第五、六行展示了复杂形态的肾小球滤过屏障分割场景,除USRegCon(i)和ImageNet(j)以外,其余方法对图像中正上方的肾小球滤过屏障的分割都出现了严重断裂的现象。此外,PixPro(f)对右下角肾小球滤过屏障的分割也出现了比较严重的断裂现象,而随机初始(b)、MoCo(d)和USRegCon(i)的断裂程度较轻。上述分割结果展示出USRegCon能有效提升模型在各种分割场景下的超微结构识别和边缘分割能力。

图5 不同预训练方法的可视化分割结果Fig. 5 Visual segmentation results of different pre-training methods.A:Ground truth;B:From scratch;C:SimCLR;D:MoCo;E:DenseCL;F:PixPro;G:DetCon;H:PointCon;I:USRegCon;J:ImageNet.

2.2 消融实验结果

2.2.1 损失函数 表2 展示3 种不同损失函数组合下USRegCon的分割结果。3种损失函数组合分别为:(1)Gray loss,仅使用灰度损失函数Lgray对模型进行预训练;(2)Semantic loss,仅使用语义损失函数Lsema对模型进行预训练;(3)Overall,联合灰度损失函数和语义损失函数一同对模型进行预训练。从结果中看出,单独使用灰度损失函数或语义损失函数预训练的模型在下游肾小球滤过屏障分割任务的表现都优于随机初始模型。联合两种损失函数预训练的模型获得了最好的分割效果。

表2 不同损失函数下USRegCon的分割结果Tab.2 Segmentation results of USRegCon with different loss functions

2.2.2 对比策略 表3展示了5种不同正负区域对设置下USRegCon的分割结果。表中“+”和“-”分别表示将相应区域设置为正区域对和负区域对,“N”表示不做正负区域对的设置。以默认设置(Default)为例,该设置将不同扩增视角下相同图像内的相同区域设置为正区域对(“intra-image same region+”),不同区域设置为负区域对(“intra-image different region-”),而不同图像间的相同区域和不同区域均不纳入到正负区域对的设置中(“inter-image same region N”和“inter-image different region N”)。通过表3可以观察到,默认设置在肾小球滤过屏障3 层结构的分割中均获得了最佳结果。Setting 2 和Setting 4 所获得的分割结果相近,表明“inter-image same region+”的设置未对结果产生太大影响。而Setting 2和Setting 4的分割结果略差于默认设置,表明“inter-image different region-”的设置会对分割结果产生略微负面的影响。Setting 1和Setting 3获得了最差的分割结果,甚至差于无预训练的随机初始,表明“inter-image same region-”的设置会严重损害模型性能。

表3 不同正负区域对设置下USRegCon的分割结果Tab.3 Segmentation results of USRegCon with different settings of positive and negative region pairs

2.3 可视化结果

图6展示了图像区域划分和深度语义区域表示的可视化结果。左侧第一列为随机挑选的3例肾小球电镜图像,中间两列和右侧两列为训练开始时(epoch=0)和训练完成时(epoch=100)模型对3例肾小球电镜图像划分的区域图和对U-GlomEM中所有肾小球电镜图像提取的深度语义区域表示的可视化图。其中,深度语义区域表示的可视化方法为t-SNE[31],图中每个点都代表了一例图像的一个区域表示,不同颜色代表不同区域。从图6的可视化结果中可以观察到,与训练开始时相比,训练完成后模型能粗略地将相同超微结构划分到同一区域中,为提取良好的区域表示奠定基础。而且模型提取的各区域表示大致聚集为5个类群,不同区域间的深度语义区域表示在表示空间的距离相远,达到了期望的对比学习目标。

图6 区域划分和深度语义区域表示可视化结果Fig. 6 Visualization of both region division and deep semantic region representations.

3 讨论

随着电子显微镜技术的发展,生物医学研究者对生物超微结构的观察和研究来到纳米尺度。针对肾小球电镜图像,使用深度学习方法对肾小球超微结构进行自动分割,可辅助病理医生对其进行快速准确的观察和测量,降低肾脏疾病超微病理诊断的难度,提高诊断的效率。然而,标记数据稀缺问题影响了深度模型对肾小球超微结构的分割性能。近年来,自监督对比学习方法通过使用大量无标记数据对模型进行预训练,成功弥补了标记数据不足的缺陷。

为了将自监督对比学习方法更有效地应用于肾小球超微结构的分割任务,本文提出了一种基于超微结构语义相似性的区域级自监督对比学习方法USRegCon。USRegCon 的预训练流程由3 个步骤组成:自适应区域划分,区域表示提取和区域表示对比,目的是学习不同数据扩增视角下相同区域内超微结构的相似性和不同区域间超微结构的差异性。与现有像素级和图像级对比学习方法相比,USRegCon既能训练模型提取图像中的全局语义信息,又能使其更好地保留图像中的局部细节信息,兼顾了全局和局部表示的学习。与现有区域级对比学习方法相比,USRegCon使用的自适应区域划分方式更为灵活,能将语义一致的超微结构划分至同一区域。

本文在私有数据集GlomEM对USRegCon进行评估,并将USRegCon与其他对比学习方法进行比较。从表1中可以观察到,不同等级的对比学习方法在提升模型对不同肾小球超微结构的分割性能上各具优劣。比如,侧重学习全局表示的图像级方法对细小内皮细胞的分割优于像素级方法,而侧重学习局部表示的像素级方法对宽大的基底膜和足细胞的分割优于或接近于图像级方法。这可能是因为在精确分割出细小内皮细胞之前需要先在全局视角下识别出内皮细胞;而对于容易识别的基底膜和足细胞,边缘局部细节的分割更为关键。区域级方法则融合了图像级和像素级方法在学习全局和局部表示方面的优势,获得了更优的平均分割结果。相比之下,本文提出的USRegCon既继承了区域级方法的上述优点,还使用了灵活性更强的自适应区域划分方式,对三层超微结构的分割结果都优于其他对比学习方法,充分证明了USRegCon的优越性。此外,图4还展示出了所有自监督对比学习方法的Dice系数平均提升量约为ImageNet的全监督预训练方法的43~65倍,且所使用的预训练数据均为无标记数据。这反映出了在标记数据稀缺的生物医学图像分割领域,自监督对比学习方法有替代全监督预训练方法的潜力。

除了对不同预训练方法进行对比实验以外,本文还针对USRegCon所使用的损失函数和正负区域对设置进行了消融实验。表2的结果展示了联合两种损失函数训练模型得到的分割结果优于单损失函数,反映了学习多层次区域表示更利于模型对肾小球滤过屏障三层超微结构的分割。表3展示了多种正负区域对设置的实验结果,可观察到跨图像的正负区域对设置不利于模型性能的提升。本文推测模型仅能依据当前输入的图像内容对图像进行区域划分,无法保证跨图像区域间超微结构的语义一致性或差异性,因此简单地进行跨图像的正负区域对设置难以促进模型学习更有益的区域表示。

在实验设置方面,本文选用了医学图像分割任务中常用的U型神经网络作为基本模型,而其他结构的深度模型与自监督对比学习方法结合的有效性尚未得到探讨。未来我们将开展相关的研究,提出更适用于自监督对比学习方法的模型结构,进一步提升肾小球超微结构的分割结果。此外,本文仅在下游肾小球滤过屏障超微结构分割任务中验证USRegCon的有效性。在未来的工作中,我们将考虑引入更多超微结构的先验知识到USRegCon中,从而促进模型学习到更为丰富的与超微结构相关的区域表示,进一步提升模型对其他超微结构的分割性能。

综上所述,本文提出了一种新的自监督区域级对比学习方法USRegCon,使用大量无标记数据预训练模型,有效缓解标记稀缺问题,提升模型在下游肾小球超微结构分割任务的性能表现。实验结果展示了USRegCon的分割结果超过了多种现有图像级、像素级和区域级对比学习方法,并且有替代基于ImageNet全监督预训练方法的潜力,充分证明了本文提出的USRegCon的优越性。未来我们将结合模型结构特性和超微结构先验知识对USRegCon进行改进,进一步提升模型分割性能。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!