当前位置:首页 期刊杂志

人工智能技术在胶囊内镜图像识别中的应用进展

时间:2024-07-28

曹海燕 何 松

重庆医科大学附属第二医院消化内科(400010)

21世纪初以色列Given Imaging公司生产出世界上第一台无线胶囊内镜(capsule endoscope, CE),即M2A CE,自此开创了小肠可视化检查的新时代。2004年我国自主研发的CE获得国家药品监督管理局批准。CE具有无创性、无需麻醉、无交叉感染、患者耐受性好等优点,现已广泛应用于临床。近年来,CE在各领域都取得了突破性进展,胶囊食管镜、磁控胶囊胃镜以及胶囊结肠镜的诞生,使消化道内镜检查更为便利。同时,利用CE进行活检、给药、感知消化道内部压力和pH值等指标、智能导航等新技术不断开发,更有利于肠道疾病的早发现和早诊断。CE对小肠疾病,如克罗恩病、不明原因消化道出血(obscure gastrointestinal bleeding, OGIB)、小肠息肉和肿瘤、乳糜泻、遗传性息肉病综合征等具有较高的诊断价值[1-2]。然而一次CE检查产生约6万张图像[3],筛选病变图像耗时、枯燥,且受医师经验和专业技术水平影响,易造成漏诊。因此,亟待研发能自动检测肠道病变的系统以解决上述问题,提高病变检出率和医务工作者的效率。近年来,人工智能(artificial intelligence, AI)逐渐深入医学领域,以大数据和云计算为基础的计算机辅助诊断技术成为临床研究热点。本文就AI技术在CE图像识别中的应用进展进行综述,以期提高临床和内镜医师对相关知识的认知,从而为AI技术在消化道疾病内镜诊治中的推广应用奠定基础。

一、基于深度学习(deep learning, DL)的AI技术

AI的概念最早于1956年由美国科学家McCarthy等[4]在Dartmouth会议上提出。AI是指使用计算机模拟、拓展和延伸人的某些思维过程和智能行为的学科,其主要研究领域包括机器人、语言识别、图像识别、自然语言处理、专家系统等。DL通过自动提取文本信息、声音信号、图像、视频等数据特征,并在历史数据的基础上发展成一套独特的算法,是AI的一个新研究领域,其在医学领域中的应用为更详细的医学图像分析开辟了新途径[5]。不同于传统机器学习通过手工提取图像的边界、纹理、强度、颜色、时空特征等信息进行特征训练,DL需保证图像的完整性和准确性才能避免遗漏病变[6]。DL系以模仿动物神经系统来创建自身神经网络,其中卷积神经网络(convolutional neural network, CNN)是一种需最少预处理的DL模型,由一系列卷积层、池化层和连接层构成,在提取图像时具有更高的效率。据相关研究报道,目前在CNN单模型中,LeNet5、AlexNet、VGG-Net和GoogLeNet已能获得较准确的图像识别结果[7-10]。

近年来,AI的图像识别功能已应用于病理学[11]、放射学[12]、皮肤病学[13]等学科。Shen等[14]通过系统性回顾比较AI与临床医师对疾病的诊断效力,涉及的学科领域包括眼科学、皮肤病学、放射学,结果表明AI优于经验不足的临床医师。在消化病学领域,大多数AI研究集中于胃肠道炎症、肿瘤和息肉、出血、肝纤维化评估以及胰腺炎与胰腺癌的鉴别诊断等[15]。在消化内镜方面,我国较早利用CNN模型的是Wang等[16]将之用于识别结肠息肉,该团队利用1 290例患者的结肠镜检查图像进行训练学习,再利用新纳入的1 138例患者的27 113张图像进行验证,结果显示其敏感性、特异性和受试者工作特征(ROC)曲线下面积(AUC)分别为94.38%、95.92%和0.984,提示CNN模型有助于提高结肠息肉和腺瘤的检出率。因此,未来基于DL的计算机辅助诊断将逐渐显露优势。

二、AI在CE领域的应用进展

1. CE的定位识别功能:CE作为一种非侵入性成像手段,类似于一台“微型相机”在整个消化道内连续拍摄,因此可捕捉全消化道管腔内图像。如要特异性地检测小肠病变,必须先识别小肠的起止点。Zou等[17]开发了基于深度CNN的CE分类系统(deep CNN-based CE classification system, DCNN-CE-CS)用于区分消化道器官,其利用25例患者约100万张CE图像进行训练,通过测试准确性可达到95%,且该系统对CE图像受个体和复杂的消化道环境影响(包括旋转、图像亮度变化等)具有很强的鲁棒性(即控制系统在一定的参数摄动下维持其他某些性能的特性)。徐兰猛[18]利用DL中的Caffe框架对不同消化道器官部位的图像数据进行训练测试,构建小肠定位识别模型,通过验证,该定位模型对小肠的识别率均值达到96.39%,对临床疾病诊断具有一定的辅助意义。

CE经口吞入后,借助人体运动、重力以及肠道蠕动通过消化道,最后随肠液、食糜以及粪便排出体外。小肠全长约5~7米,受人体复杂内环境的影响,CE运行时间长,临床难以做到实时监控,因此对小肠CE位置的判断尤为重要。2017年Dimas等[19]发表的基于神经网络的研究利用视觉里程表通过识别连续的CE视频帧来估算CE在胃肠道中的实际行程。视觉里程表完成机器人导航任务是通过一个(单目里程表)或2个(立体里程表)摄像头收集的视觉信息使机器人了解其位置和方位,从而在已知或未知环境中导航。该项研究最低的平均定位误差为(2.70±1.62) cm,为精准识别病变以及后续开展体内、外治疗提供了新途径。

2. 提高肠道可视性:肠道清洁质量对CE的可视性尤为重要,既往研究表明,不充足的肠道准备可能会导致35%~42%的结肠腺瘤漏检率[20-21]。武汉大学人民医院开发了一款用于结直肠肠道清洁度评分的AI系统EndoAngel®,在对120张结肠图像的人机测试中,准确性可达93.33%,明显高于内镜医师评估;但在对100张有气泡干扰的图像进行评估时,其准确性仅有80%[22]。该研究结果提示,肠道准备的充分性可直接影响AI筛查病变的准确性。同理,对于CE视频成像,胆汁、食物残渣、气泡以及液体量等非信息帧均会直接影响内镜医师的视野。此外,CE不规则运动产生的冗杂信息帧也会影响整个视野的清晰度[23]。

Seguí等[24]介绍了一种利用小肠运动特点的分类方法解决肠腔内成像问题,研究采用随机分层方法从数据库中分别抽取CE图像作为训练集和测试集,通过对食糜、气泡、清晰的斑点、褶皱以及肠壁等的识别对视野进行清晰定位,准确性达到96%。Yuan等[25]利用DL模型对气泡、浑浊以及清晰图像等的识别亦获得了较高的准确性。因此,内镜医师在回顾阅片时,将冗杂信息剔除后,可做到更快速、准确地定位病变。

3. 对小肠常见病灶的识别功能:因小肠疾病的病灶大小、表面纹理、边界、密度、颜色等呈个体化差异表现,加之肠道准备质量、CE亮度、拍摄视角等诸多因素的影响,CE对小肠病变的甄别有一定难度。在DL模型应用之前,计算机对病变的识别大多采用人工提取特征的方式,如颜色直方图、尺度不变特征转换、离散小波变换、轮廓转换以及支持向量机等,采用上述方法的研究多基于较小型的数据库,不能确保每次均能完整提取信息,存在需反复提取信息、耗时长、费用高、普适性差等缺点[26]。较之传统的机器学习,DL模型更智能化,能自动提取更多像素级别的病变细节和特征,从而更好地适应复杂的人体和临床环境。

CE图像通常可分类为正常、炎症、溃疡、出血、血管疾病、突出病变、淋巴管扩张、淋巴滤泡增生、憩室、寄生虫等[27]。近期发表的一项涉及中国77个医疗中心的回顾性研究[28]利用ImageNet获取预处理模型,将在此模型基础上发展而来的ResNet模型用于训练1 970例患者的158 235张CE图像,分别由20名消化科医师和CNN模型对5 000例患者的1亿余张图像进行验证,分析显示消化科医师对小肠疾病的敏感性仅为76.89%,CNN模型的敏感性则高达99.90%,差异有统计学意义,而且后者将平均阅片时间从96.6 min缩短至5.9 min,工作效率明显提高。但CNN模型对图像的解释标准尚不确定,其机械术语难以形成客观的医学语言,内部算法亦不明确,呈“黑箱”操作模式,如应用于临床,诊断误差难以解释。未来需大量前瞻性数据对CNN用于病种分类、疾病鉴别诊断等的效能作进一步验证。

①出血:小肠出血是近年来的研究热点,因肠道出血的红色色调较正常黏膜区域明显,故早期研究主要局限于使用颜色矩或颜色直方图,亦有文献报道利用可疑血液指示器(suspected blood indicator, SBI)对活动性出血进行快速识别,敏感性超过96%,但特异性较低(17%~65%)[29-30]。日本学者利用肠腔内活动性出血或血凝块血液含量的差异研发出了ResNet50深度网络结构的CNN算法来识别血液含量,该方法检测肠腔内血液含量的AUC达到0.999 8,以概率0.5为临界值,敏感性、特异性和准确性分别为96.63%、99.96%和99.89%,均高于SBI检测的相应数据(76.92%、99.82%和99.35%),具有明显优势[31]。Li等[32]对比了4种DL模型(LeNet、AlexNet、GoogLeNet、VGG-Net)识别肠道出血的效率,四者的体系结构在输入格式、深度和模块方面有所不同,对12 090张原始图像测试的准确性分别为97.44%、 98.72%、100.00%和98.72%;将原始数据库扩大17倍后,测试准确性分别为79.81%、 98.06%、 96.33%和98.65%;在训练阶段,4种模型运算耗时分别为3 min、2 h、5 h和36 h。上述结果表明,随着数据库的扩大,运算准确性有所降低,但加深网络结构后,运算准确性和效率明显提高。然而,神经网络存在网络结构越深、计算量越大、耗时越长的缺点,因此需要更高质量、更大的数据库才能保证其运算,这往往会导致数据集的过度拟合,也会影响结果的准确性。

胃肠道血管扩张(gastrointestinal angiectasia, GIA)是指正常黏膜和黏膜下畸形静脉和毛细血管发生的扩张性病变,内镜下表现为平坦、鲜红色病变,为OGIB的病因之一。有学者利用CNN的语义分割图像算法对GIA和正常胃肠道图像各600张进行测试,结果显示其敏感性和特异性分别为100%和96%[33]。但该研究是从连续的CE全长视频画面中提取静止帧,对所提取图像的清晰度有要求,在临床实践中做到此点有相当大的难度。

②溃疡和糜烂:溃疡和糜烂是消化道最常见的病变,多与滥用非甾体抗炎药、克罗恩病、小肠恶性肿瘤等有关,早期黏膜表现不明显,病变扩大并侵及黏膜下层、肌层、血管后,可引起出血、穿孔甚至因瘢痕形成导致小肠狭窄等并发症,严重威胁人类健康。

Alaskar等[34]沿用已训练好的GoogLeNet、AlexNet模型对溃疡和非溃疡图像进行训练,结果显示前者训练时间明显短于后者,在学习率为0.000 1时,两者的准确性均可达到100%。Wang等[35]研发了一款以ResNet-34为基础、将浅层超特征与更深层特征融合的HAnet体系结构,为溃疡诊断提供最终决策。研究利用1 416例患者的CE视频图像集进行分析,最终通过HAnet验证,准确性、敏感性和特异性均在91%以上,优于VGG、DenseNet、Inception-ResNet-v2等DL模型以及传统的机器学习方法。Klang等[36]利用CNN模型诊断克罗恩病的溃疡病变,结果显示准确性为95.4%~96.7%,AUC达到0.99,表明CNN模型有助于解决近端回肠克罗恩病诊断困难的问题,为Lewis评分和CE克罗恩病活动指数(CECDAI)评分提供可靠的数据支持。

③小肠息肉和肿瘤:Yuan等[25]提出了一种新的基于图像流形约束的堆叠稀疏自动编码器(stacked sparse auto-encoder with image manifold constraint, SSAEIM)深度特征学习方法,采用该方法对35例患者的4 000张CE图像进行分析以识别结直肠息肉,总体识别准确性可达98%。Li等[37]采用机器学习的方法,基于彩色纹理特征,提出了一种将均匀局部二进制模式与小波相结合的方法描述CE图像特征,对小肠肿瘤的识别准确性达到92.4%。较之其他消化道病变,目前CNN模型用于识别小肠息肉和肿瘤的研究尚少,可能与可供训练的CE图像数据集不足、小肠肿瘤较罕见等原因有关。

④乳糜泻:乳糜泻是一种累及小肠的自身免疫性疾病,临床表现为腹泻、腹痛、体质量减轻、水肿等,与其他消化道疾病表现类似,临床诊断较为困难;内镜下特征性表现为小肠黏膜绒毛萎缩,需通过小肠黏膜活检确诊。Zhou等[38]利用GoogLeNet模型对6例乳糜泻患者和5名对照者的小肠CE视频图像进行训练,并以5例乳糜泻患者和5名对照者进行验证,敏感性和特异性均达到100%,具有统计学意义。但该试验为临床前研究,样本量较小,其结果需前瞻性大数据库研究证实。Wang等[39]利用局部通道特征图的显著特征研发出一款新型重新校准模块,并将其嵌入ResNet50、Inception-v3 DL模型中,结果表明其诊断乳糜泻的准确性、敏感性、特异性分别为95.94%、97.20%和95.63%。

⑤寄生虫:肠道常见的寄生虫为钩虫,多见于热带和亚热带地区,据统计全球每年约有6亿人感染,严重威胁人类健康[40]。钩虫的形状、宽度以及弯曲程度给自动检测带来了巨大的挑战。He等[41]提出了深层钩虫检测框架(deep hookworm detection framework, DHDF),利用边缘提取网络和钩虫分类网络两种CNN模型诊断钩虫感染,最终诊断准确性和敏感性分别为88.5%和84.6%。

三、结语

综上所述,CE是检测小肠病变的主要手段。随着计算机算法的日益丰富和智能化,DL模型在疾病诊断中的应用逐渐增多,以CNN为代表的DL模型对病灶具有快速识别能力,可有效降低漏诊率,用于CE的诊断取得了较大突破。目前,诸多研究对AI在CE图像识别中的应用进行探索,对比分析AI与传统机器学习以及不同DL模型之间的差异,通过训练、验证、测试,大多数模型可获得较高的诊断敏感性、特异性和准确性,为后续临床应用提供了丰富的素材和参考信息。随着AI技术的不断成熟和DL算法的不断更新,AI将会更高效地辅助临床医师工作,进而提高消化道疾病的临床内镜诊治水平。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!