当前位置:首页 期刊杂志

基于深度学习模型对乳腺X线摄影中乳房密度分类的初步研究

时间:2024-07-28

马明明,姜原,刘义,王祥鹏,黄嘉豪,张晓东,秦乃姗,王霄英

乳腺X线密度(mammographic density,MD)反映了乳腺中纤维腺体的相对数量,是乳腺癌的独立危险因素[1-2]。根据第5版乳腺影像报告和数据系统(Breast Imaging Reporting and Data System,BI-RADS)MD分为a、b、c、d四型,但在临床应用时,读片专家间的一致性不高(Kappa=0.57,95%CI 0.53~0.61)[3],不同级别医师之间的一致性从较差到中等(Kappa值0.396~0.604)[4]。为了实现MD分类的临床意义和评价一致性,常有研究将乳腺密度进行二分类,即将a型和b型分为非致密组;将c型和d型分为致密组[5-6]。致密组乳腺的女性患乳腺癌风险高于非致密组,患乳腺癌风险是非致密组乳腺女性的4~6倍[7],因此在乳腺X线报告中对致密组和非致密组的分类是很重要的。近年来很多研究者使用算法测量MD,试图对MD自动判断,但结果仍有提升的空间[8]。本研究旨在训练深度学习模型,期望能用来可靠地评估MD密度分组,并将结果自动接入到结构化报告系统中,实现在临床工作中自动报告乳腺密度分组。

图1 模型预测结果自动填写入结构化报告的工作流程。

材料与方法

本研究获得了伦理审查委员会的批准(批件号:[2017(1382)]),按照本单位人工智能(AI)模型训练规范执行研究方案。

1.用例定义

根据本单位AI训练管理方法,首先定义研发乳腺钼靶X线检查投照体位和腺体密度分类模型的用例。包括:模型的ID、临床问题、场景描述、模型在实际工作中的调用流程、模型输入输出数据结构等。AI模型返回结果定义为:腺体密度分型“BIRADS-a、b、c、d”。MD分类模型预测结果返回到结构化报告中的“整体评估”模块(图1)。

2.研究队列建立

本研究回顾性搜集本院PACS系统中2018年6月1日-2018年12月30日进行乳腺X线摄影检查的连续患者影像报告。

MD模型训练入组标准:①常规筛查或乳腺超声检查异常而进行的诊断性乳腺X线检查;②行双乳的MLO位及CC位的乳腺X线检查。排除标准:①乳腺癌根治切除术后;②假体植入术后;③图像显示腺体不完整。根据MD模型训练纳入和排除标准筛选合格病例305例,共1220个数据(图2),均为女性,年龄29~91岁,平均年龄53.4±11.9岁。使用Python的dicom2nii包将DICOM格式转换为NIFTI格式。

图2 MD模型训练纳入研究对象的流程图。

由两位影像科医师(乳腺影像诊断工作经验分别为5年、27年)共同根据BI-RADS第5版的MD标准进行分型,标准如下:① a型:乳腺内几乎全是脂肪组织;② b型:乳腺内散在纤维腺体密度区域;③ c型:乳腺组织密度不均,可能使小的肿块被遮挡;④ d型:乳腺组织极其致密,使X线检查敏感度降低(图3)。

图3 女,51岁,a型乳腺,乳腺内几乎全部是脂肪组织。a)CC位;b)MLO位。 图4 女,48岁,b型乳腺,乳腺内散在纤维腺体密度。a)CC位;b)MLO位。 图5 女,40岁,c型乳腺,乳腺组织密度不均,可能使小的肿块被遮挡。a)CC位;b)MLO位。 图6 女,27岁,d型乳腺,乳腺组织极其致密,降低乳腺X线摄影的敏感度。a)CC位;b)MLO位。

3.模型训练

硬件为GPU NVIDIA Tesla P100 16G,软件包括Python3.6、Pytorch 0.4.1、Opencv、Numpy、SimpleITK。采用Adam作为优化器[9]。训练腺体密度模型时,将1220个数据随机分训练集(train set,n=966个),调优集(validation set,n=128个)和测试集(test set,n=126个)。输入图像设置为自动窗宽窗位,图像大小为224×224,输出数据为模型分类预测结果。图像扩增方法包括:平移、旋转、随机噪声等。MedNet网络主要参数如下: batch_size=150,num_epochs=300,learning_rate=0.00005。

4.模型评价

得到测试集的混淆矩阵(confusion matrix)后,采用PyCM多分类混淆矩阵库进行多分类效能分析。

结 果

MD分类模型对测试集数据预测的混淆矩阵和统计效能见表1~2。测试集的126个数据的预测符合率(ACC Macro)为0.83,a、b、c、d各型预测符合率分别为0.88、0.78、0.80和0.76。将MD分为致密组和非致密组时,非致密组精确度(precision)为0.90,召回率(recall)为0.74,F1值为0.81;致密组精确度为0.86,召回率为0.84,F1值为0.85。

表1 MD四分类模型预测结果(n=126)

表2 MD四分类模型预测效能指标

讨 论

临床工作中,患者在接受乳腺X线摄影检查后,影像医师在书写报告时应提供MD评估信息,MD不仅是乳腺癌的风险因素之一,更是对MG评估的准确性有影响。无论是乳腺疾病的诊断,还是乳腺癌筛查中,每年都要进行大量的乳腺X线摄影检查,对每次检查进行的乳腺密度评估是ACR影像解读的常规要求。然而,放射科医生对MD主观判断的重复性差,不同的放射科医生对乳腺密度的评估存在很大差异[10-12]。深度学习已用于评估乳腺密度的初步工作[13-14],本研究训练深度学习模型来评估乳腺X线摄影MD,符合率较高。既往Mohamed等[15]基于卷积神经网络(CNN)构建MD分类中最常见但一致性最差的两个类别(b型、c型)的分类模型,模型对b型和c型的判断符合率为0.94;Ciritsis等[16]的研究表明,其构建的CNN模型根据不同体位对MD分类,在影像专家共识决策方面,MLO模型(0.92)和CC位模型(0.87)有很好的一致性。本研究对MD四分类中,b型和c型符合率接近0.8,但二分类(致密组、非致密组)的准确率较高,在0.9左右,并可将结果接入到到结构化报告中,不仅能减轻医师的工作强度、缩短报告时间,还能提高MD评估的一致性,与既往研究结果相似[15-21]。

在MD四分类中,各类均有模型不能正常识别的病例(表1),究其原因如下:①基于第5版的BI-RADS MD分类取消了关于腺体成分占比的规定,因而同一分类中图像的异质性更大,以c类为例,可能图像上仅有非常少的区域有高密度腺体足以产生遮蔽效应,而其他区域与b类相同。因此本研究训练的模型对四分类中二个相邻分类之间的区分有一定错误率,而对致密组和非致密组的分类诊断符合率较高。②本研究使用的图像数量较少,也未对图像质量进行分层,可能由于图像质量欠佳导致分类错误。③训练时未对图像中的病灶进行分层,在a类(5/30)和b类图像中肿块较大(6/32)时,标注者是以肿块之外的腺体部分为准对图像分类,而将图像输入模型训练时,肿块部分的图像特征也被模型提取特征,造成对于a类和b类的预测错误。上述原因分析为将来迭代模型提供了方向。首先,在做MD分类前应对图像质量进行评价,可前置一个图像甄别的模型,对投照体位、投照范围、投照条件等做出评估,将筛选过的合格图像输入到本模型中。这种流程在其他研究中也应用,前置的图像甄别模型有利于提高诊断模型的效能[22]。另外,在预测MD分类时,应同时预测乳腺区域是否存在明显的肿块,将二个模型的结果集成处理,以避免大的肿块对腺体分型预测结果的影响。

本研究的局限性是非常明显的。首先,本研究是小样本回顾性研究,数据来源于同一个单位、同一台设备,常规扫描参数是相同的,所以未来需要进行前瞻性、大样本、多中心临床研究,不断迭代,才能达到较高的MD分类预测效能。其次,本研究虽然有1220个影像数据,但是只有610侧乳腺,而临床实践中我们一般都是综合MLO和CC位进行MD的判断。本研究将CC和MLO作为独立的影像数据进行分析,经过复审发现CC和MLO的分类是一致的,可能与本研究数据入组时只挑选了图像质量合格、且专家对分类达成一致的数据有关。在实际工作中,影像科医生读片时对MLO与CC的密度分类可能不一致,医生是综合两个体位做出判断的。未来在模型训练时应将体位因素增加到输入信息中,输出结果时也要先分别输出两体位图像的单独预测结果,再加以集成。第三,本研究的模型未进行临床价值的评价,在今后的模型研发过程中应进行不同性质的临床验证试验,以了解影像医生对模型的接受情况[23]。只有当模型在实际报告场景中应用,并确实提高了工作效率和准确率时,才能证明模型的真正价值[24]。最后,乳腺影像诊断涉及了很多诊断任务,应将MD分类、病灶检出和分类等整合在一起,才能实现全流程的自动化。

总之,本研究基于深度学习训练乳腺X线MD分类模型,具有较高的分类效能,在经过更多验证和迭代后,有望用于临床工作,提高工作效率。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!