时间:2024-07-28
陶雪敏,方 瑞,吴重重,张 弛,张荣国,于朋鑫,赵绍宏
1解放军医学院,北京 100853 2中国人民解放军总医院第一医学中心放射诊断科,北京 100853 3北京推想科技有限公司先进研究院,北京 100025
随着多排螺旋CT技术发展及低剂量CT筛查的广泛应用,越来越多的肺内纯磨玻璃密度结节(pure ground glass nodule,pGGN)被发现,且长期的磨玻璃结节存在肺癌可能[1- 2]。国内外对pGGN肺腺癌浸润性的判断已经有很多报道[3- 5],这些报道大多数是基于CT特征的,而pGGN不具备典型影像特征时,判断其浸润性就比较困难,目前仍主要依靠医生临床经验,诊断与治疗均有很大的随意性,存在过度治疗的倾向[6]。浸润性肺腺癌的治疗方式及5年无病生存率都与非浸润性肺腺癌(如原位腺癌、微浸润性腺癌)截然不同[7],所以,如何在术前鉴别浸润性腺癌与非浸润性腺癌尤为重要。本研究利用深度学习模型对术前pGGN的病理类型进行预判,并与术后病理及专家诊断对比,判断深度学习模型在pGGN浸润性判断的价值。
对象采用单中心回顾性分析,收集2013年 2月至2018年5月中国人民解放军总医院第一医学中心符合以下标准的患者临床及影像资料。纳入标准:(1)病理确诊为肺腺癌;(2)手术之前未行放疗和化疗;(3)术前1周内行CT检查并有1.25 mm的薄层图像;(4)CT表现为pGGN。排除标准:(1)术前有恶性肿瘤病史并接受过抗肿瘤治疗;(2)CT肺窗上病变内观察到实性成分。219例患者共 240个病变纳入研究。其中浸润前病灶(包括不典型腺瘤样增生及原位腺癌)为58个,微浸润腺癌(minimally invasive adenocarcinoma,MIA)病灶为86个,浸润性腺癌病灶为96个,部分病例表现为多发,而且同一例患者不同病灶或病理亚型不相同也会作为独立的样本进行分析。
病理检查方法所有入组患者均接受手术并取标本病理送检。病理检查方法为10%甲醛进行固定,取材后进行石蜡包埋切片,最后行HE染色以及免疫组织化学染色。病理诊断参照2015年WHO肺癌分类标准。其中,不典型腺瘤样增生(atypical adenomatous hyperplasia,AAH)表现为肺泡内衬有单一的轻度不典型长方体及柱状体上皮细胞。表现为单纯磨玻璃样结节的病变以原位腺癌(adenocarcinoma in situ,AIS)和MIA为主,AIS 为肿瘤细胞沿肺泡附壁生长的肺内磨玻璃样结节,边缘大部分较清晰,表现为肺泡间隔的增厚,无基质血管和基膜侵犯;MIA 以附壁生长方式为主,表现为孤立性且浸润灶≤ 5 mm的肺腺癌;浸润性腺癌为基质血管和基膜受侵犯,浸润灶> 5 mm的肺腺癌。
CT扫描参数采用美国GE Optima CT660扫描仪。患者取仰卧位、双臂上举、 头先进,均在吸气末屏气后扫描。扫描范围包括肺尖至膈下3 cm。扫描参数:管电压120 kVp,自动管电流调整技术,重建出1.25 mm的薄层CT图像;肺窗窗宽1600 HU,窗位-600 HU;纵隔窗窗宽400 HU,窗位40 HU;辐射剂量均小于10 mGy。用于标注的CT图像均为1.25 mm的薄层肺窗图像。
感兴趣区域的勾画与标注对CT图像上的病灶进行人工勾画逐层分割感兴趣容积(volume of interest,VOI),勾画方式如图1所示。VOI包含整个病变,排除VOI内的大血管和动脉。最后由另一名放射科医师对每个VOI进行复核,确保每个VOI准确勾勒病灶边界,同时根据手术记录及病理结果对病灶进行标记,分别标记为浸润前病变、微浸润性腺癌、浸润性腺癌。
基于VOI的人工智能深度神经网络分析
模型算法:采用3D DenseNet模型算法,本模型是基于16位的医学数字成像和通信图像,PyTorch 框架进行训练,3D DenseNet 模型使用和DenseNet[8]类似的169层神经网络结构,不同的是网络输入是3D图像,即患者CT图像的VOI区域,网络的输出是pGGN的病理分型的概率预测,模型的结构如图2所示,模型中包含的隐含层及其参数见表1。使用DenseNet在ImageNet数据集上的预训练模型,用于迁移学习[9]。使用迁移学习的目的是加快网络训练速度并在一定程度上减少过拟合现象。
表1 3D 深度卷积神经网络参数
VOI:感兴趣容积;以逐层标记的方式进行医学数字成像和通信数据中VOI的勾画
3D DenseNet模型的主要结构包括密集连接块、转换层、上采样层、池化层、展开层、特征连接层和全连接层,3D DenseNet 的输入为图像块,输出为结节浸润概率,黄色块与红色块分别表示特征连接层的输入和输出
训练过程:训练与验证的所有数据均使用患者CT图像提取出的VOI区域进行分类,每一个VOI区域提取出一个长方体,提取过程并未对VOI区域进行加窗处理,以便在训练过程中进行数据增强(图3)。本研究按每一病理类型随机分为两组,训练集数据和测试集数据。训练集数据占全部数据的80%,测试集数据占20%。
数据优化处理:包括数据增强及数据不平衡的处理。由于数据较少,数据增强可以减少训练过程中的过拟合现象。本研究使用的数据增强方法包括:(1)生成随机的训练数据。输入尺寸是根据所有 VOI 的勾画结果统计值确定,在确保可以完整包含病灶区域的前提下尽量缩小输入数据的大小,最后确定的网络输入大小为80×80×64像素,对于训练集,原始的结节分割VOI会随机分布到提取长方体的任何一个位置;对于测试集,结节分割VOI处于长方体的中心。(2)实时窗宽窗位的随机变化。默认窗位窗宽为(-600 HU,1600 HU),在训练过程中,训练集会进行窗位-5到5的变化,以达到增强数据的目的;测试集使用默认窗宽窗位。本研究数据存在一定程度的类别不平衡,对此,在训练期间采用了对小类别样本进行过采样的方法来平衡数据。
专家对测试集(共48例)的数据进行评估对于测试集的数据,由两位具有15年以上胸部影像诊断工作经验的专家在不知道病理结果的基础上对CT图像进行评估并做出病理亚型判断,两人独立进行,每人共分前后两次,两次评判的间隔时间为1周,做好记录。最后,对于判断结果不一致的病例,两位专家一起评判得到一致意见,作为联合评判结果。
统计学处理采用SPSS 22.0和MedClac进行数据分析。使用SPSS 22.0计算深度学习模型和专家与病理结果的一致性检验(Kappa检验),采用χ2检验进行准确率的检验以及受试者工作特性(receiver operating characteristic,ROC)曲线的绘制。以病理诊断为参考标准,为了实现分类目的以及评价深度学习模型与专家组诊断的准确性,利用ROC曲线显示深度学习模型与专家组区分pGGN浸润性的诊断能力。ROC曲线以灵敏度(真阳性率)和1-特异度(假阳性率)为横纵坐标绘制而成,将ROC曲线上各个点的灵敏度与1-特异度的值拷贝在Excel表格中,计算出约登指数,取约登指数最大的点作为临界值。使用MedClac软件计算准确率、灵敏度和特异度的95%CI以及ROC曲线下的面积(area under curve,AUC)值的差异性检验(Z检验)[10]。研究中的混淆矩阵是一个组合2×2列联表,报告了深度学习模型与专家组诊断浸润性腺癌的真阳性数、假阳性数、假阴性数和真阴性数。计算灵敏度、特异度、约登指数、阳性预测值、阴性预测值、阳性似然比以及阴性似然比等诊断指标。灵敏度为正确识别出浸润性腺癌的比例;特异度为正确识别的非浸润性腺癌患者的比例;约登指数为评价诊断实验真实性的指标,其计算方法为灵敏度与特异度之和减去1;阳性预测值为诊断浸润性腺癌的样本中,实际浸润性腺癌的百分比;阴性预测值为诊断非浸润性腺癌的样本中,实际非浸润性腺癌的百分比;阳性似然比为真阳性率与假阳性率的比值;阴性似然比为假阴性率与真阴性率的比值。同时,利用F1值评价机器学习的诊断效能,F1值越高,诊断效能越好。F1值计算方式为2(精确度×召回率)/(精确度+召回率),而召回率又称真阳性率或灵敏度,精确度也称阳性预测值。P<0.05为差异有统计学意义。
数据优化处理中的数据增强方法由图像块的随机选择和归一化组成,图中的红色块、蓝色块和绿色块分别表示对同一个结节的随机选取图像块,对每个图像块以不同的窗宽窗位进行归一化,得到归一化后的图像块;可视化图像块其任意层的结果如图中右侧所示
一般情况训练集中,共有男性73例,平均年龄为(55.4±10.5)岁;女性98例,平均年龄为(53.1±9.4)岁。测试集中,共有男性18例,平均年龄为(57.1±8.2)岁;女性30例,平均年龄为(54.3±9.8)岁。训练集数据中有192个pGGN,其中非浸润性腺癌共116个(包括浸润前病变48个、微浸润性腺癌68个),浸润性腺癌76个。测试集中有48个pGGN,其中非浸润性腺癌共28个(包括浸润前病变10个、微浸润性腺癌18个),浸润性腺癌20个。
深度学习模型验证结果与专家诊断结果将浸润性腺癌定为阳性结果,非浸润性腺癌(包括不典型腺瘤样增生、原位腺癌、微浸润性腺癌)即为阴性结果,深度学习与专家诊断的结果显示,对于CT上表现为pGGN的浸润性腺癌与非浸润性腺癌,仅深度学习的诊断结果差异有统计学意义(χ2=20.743,P<0.001)(表2)。
表2 深度学习与专家组对测试集pGGN的诊断结果(n)
专家对测试集pGGN的一致性检验结果对专家1和专家2前后两次诊断进行一致性检验显示两位专家各自前后两次判断的一致性较好(Kappa=0.939,Kappa=0.799)。选取第2次诊断意见进行专家间的一致性检验显示略低于专家个人的一致性(Kappa=0.667)。
深度学习模型验证效能与专家诊断效能深度学习模型判断pGGN的准确率为0.833,95%CI为0.7016~0.9157,灵敏度为0.7,95%CI为0.4567~0.8716,特异度为0.929,95%CI为0.7504~0.9875,约登指数为0.629。深度学习模型诊断的阳性预测值、阴性预测值、阳性似然比与阴性似然比分别为0.875、0.813、9.800和0.323。用于评价机器学习诊断效能的指标F1值为0.778,诊断效能较好。
专家1对pGGN诊断的准确率为0.5000,95%CI为0.3639~0.6361,灵敏度为0.8500,95%CI为0.6114~0.9604,特异度为0.2860,95%CI为0.1143~0.4522,约登指数为0.1000。专家1诊断的阳性预测值、阴性预测值、阳性似然比与阴性似然比分别为0.4470、0.7000、1.1900和0.6000。F1值为0.5860,诊断效能一般。专家2对pGGN诊断的准确率为0.5625,95%CI为0.4227~0.6931,灵敏度为0.8000,95%CI为0.5573~0.9339,特异度为0.3570,95%CI为0.2213~0.5927,约登指数为0.1930。专家2诊断的阳性预测值、阴性预测值、阳性似然比与阴性似然比分别为0.4850、0.7330、1.1322和0.5090。F1值为0.6040,诊断效能一般。两位专家联合诊断pGGN的准确率为0.5417,95%CI为0.4029~0.6743,灵敏度为0.9000,95%CI为0.6687~0.9825,特异度为0.2860,95%CI为0.1395~ 0.4887,约登指数为0.1857。两位专家联合诊断的阳性预测值、阴性预测值、阳性似然比与阴性似然比分别为0.4740、0.8000、1.2600和0.3500。F1值为0.6210,诊断效能一般。深度学习诊断的准确率明显高于专家组诊断结果,准确率高达0.8330,特异度高达0.9290,对非浸润性肺腺癌的识别效能好,深度学习与专家组之间诊断准确率的差异具有统计学意义(χ2=14.113,P=0.000)。
对深度学习模型及专家诊断意见以病理结果作为参考标准进行ROC曲线绘制,ROC曲线下面积的大小表明诊断试验准确度的大小。ROC曲线对比图显示,4种诊断结果均在参考线以上,且深度学习结果明显优于其他3组结果(图4)。其中,深度学习、专家1、专家2和专家组的AUC值分别为0.814、0.550、0.600、0.590,经过统计学检验,专家1与专家2(Z=0.837,P=0.402)、专家1与专家组(Z=1.395,P=0.163)、专家2与专家组(Z=0.068,P=0.946)之间差异无统计学意义,而专家1与深度学习(Z=4.346,P=0.000)、专家2与深度学习(Z=3.144,P=0.002)、专家组与深度学习(Z=3.404,P=0.001)差异有统计学意义。
图4 深度学习与专家诊断的受试者工作特征曲线
根据2015年WHO肺肿瘤新分类[11],浸润性肺腺癌、MIA以及浸润前病变(包括AAH和AIS)在CT上均可以表现为pGGN[12]。但不同的是,早期浸润前病变如AAH和AIS,可采用密切随访或局部切除,且5年生存率达100%;MIA也无淋巴结转移和血行转移,但可转化为浸润性腺癌,可采用亚叶切除或肺叶切除,5年生存率近于100%;而浸润性腺癌除非小于2 cm或磨玻璃成分大于75%,即使肺叶切除加淋巴结清扫,5年生存率也只有60%~80%[7,11,13],因此,术前实现对浸润性肺腺癌的精准诊断非常重要。
人工智能辅助影像诊断的研究已有文献报道[14- 15]。人们相信CT上磨玻璃结节肯定存在肉眼观察之外的信息,所以有研究者基于影像组学帮助判断磨玻璃结节的良恶性和浸润性[16]。影像组学和深度学习都是以影像内部特征与病灶表现的相关性为基础对结节进行评估,两者也存在区别。影像组学对影像特征的提取以先验知识为基础,事先需设定好需要提取的特征类型,而深度学习则完全由数据本身驱动,通过自身不断学习的方式提取特征[17]。本研究利用深度学习算法尝试对pGGN进行初步的病理分型,即将浸润性腺癌从微浸润性腺癌与浸润前病变中鉴别出来,结果显示深度学习模型有较好的诊断性能,与专家诊断结果相比,显示出明显的优势,尤其是准确率和特异度评价指标。以后还会加入影像组学,增加样本数据量,以获得最新的诊断模型,进而对两者进行更深度地比较,以辅助临床诊断。
国内外对pGGN浸润性的研究大多数都是基于磨玻璃结节(ground glass nodule,GGN)的影像特征,分析GGN的各种CT征象判断病变浸润性,但报道都不尽相同。Lee等[18]的研究结果显示,pGGN的直径大于15 mm,CT值大于-472 HU,倾向于浸润性腺癌。Zhang等[19]的研究结果显示GGN内包括肺动静脉异常及支气管异常、胸膜牵拉等内部结构的异常均提示GGN的浸润性,这一点在杨越清等[20]和金鑫等[21]的研究结果中也有相同的报道。pGGN的影像特征在各亚型间存在重叠,Wu等[22]研究显示在小于10 mm的pGGN中也存在30%的浸润肺腺癌,而病变内部结构无改变时对浸润性的判断更加困难,尤其是人的肉眼观察和分辨能力有限,很难对pGGN做出较为准确的诊断。本研究即使是两位从事胸部影像诊断15年以上的专家,对表现为纯磨玻璃密度结节浸润性判断准确性也不足60%,特异性更不足40%。本研究两位专家的特异性较低,主要是由于非浸润性腺癌识别相对不足,将大部分病理结果为微浸润性腺癌的病变诊断为浸润性腺癌。但微浸润性腺癌与浸润性腺癌的手术方式和预后显著不同,仅凭肉眼确实很难将两者区分开来,因此,愈加说明pGGN浸润性的判断和诊断还存在很大困难,同时也说明国内pGGN病变存在过度治疗的倾向,容易将非浸润性腺癌作为浸润性腺癌处理和治疗,这一点和Hutchinson等[6]的报道一致,Hutchinson等[6]认为表现为纯磨玻璃密度结节肺腺癌好的预后带来了纯磨玻璃密度结节的过度治疗,另外,Kakinuma 等[23]对795例患者共1229处病灶进行4.3年随访,只有1%的患者结果为浸润性肺腺癌。
有文献报道人工智能技术在GGN诊断中的应用[12-13]。Mei等[13]的研究显示,随机森林预测GGN的恶性程度准确率高达95.1%,预测恶性GGN的浸润性达83%。孙炎冰等[24]利用人工智能CT定量分析对肺磨玻璃密度结节进行初探研究,认为病灶尺寸定量参数测定有助于为磨玻璃密度肺结节预测临床治疗时机。Fan等[16]研究显示影像组学特征在浸润性腺癌和非浸润性病变之间能够显示出良好的预测效果。本研究显示深度学习的ROC曲线下的面积(AUC值)明显高于专家自身以及专家联合诊断结果,这也进一步表明人工智能的确能帮助放射科医师提高诊断的准确性。而专家个人前后或专家之间一致性都相对较好,表明对于同一个病变,同一个专家的认识差异不大,但专家之间存在一定差异,表明目前对pGGN浸润性的判断尚缺乏一个有效的诊断标准,即证明人工智能的存在可以使pGGN的诊断更加标准化,减少同一病变因不同观察者而出现不同结果的情况,可以为未来实现标准化的pGGN处理提供理论与技术支持。
本研究的限制性在于:(1)样本量相对不足,尤其测试的样本量仅有48例,在人工智能建模中,利用数据增强抵消这一不足,后期会扩大样本量继续研究。(2)本研究只纳入有手术病理的病例,存在选择性偏倚。
综上,深度学习模型对pGGN肺腺癌浸润性的初步判断具有良好的诊断效能,准确率为0.8330,特异性高达0.9290,优于专家诊断。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!