当前位置:首页 期刊杂志

基于关联规则结合隐结构模型的慢性阻塞性肺疾病稳定期文献的基础证候特征研究*

时间:2024-07-28

冯贞贞 ,谢 洋 ,2,春 柳 ,何雯青 ,李建生 ,2**

(1. 河南中医药大学呼吸疾病中医药防治省部共建协同创新中心/河南省中医药防治呼吸病重点实验室 郑州 450046;2. 河南中医药大学第一附属医院呼吸科 郑州 450000)

慢性阻塞性肺疾病(COPD)是一种常见的、可以预防和治疗的疾病,以持续呼吸症状和气流受限为特征,通常是由于明显暴露于有毒颗粒或气体引起的气道和/或肺泡异常所导致,患病率、死亡率、致残率高,疾病负担沉重[1]。我国40 岁以上成人患病率达13.7%,位居我国主要死因第3位[2,3]。中医药或中西医结合治疗COPD 具有一定优势,可改善稳定期症状、减少急性加重、提高运动能力和生存质量[4]。证候是中医学特有概念,是临床辨证的依据,具有模糊性、复杂性、多样性等特点,证素是构成证候的基本单位。复合证候是指包含多个病位或病性证素的证候,临床常见证候多以复合证候形式存在[5]。基础证候由1 个主要证素或多个证素组合而成,是介于证素与临床常见证候之间的中间环节[6],如:肺+ 气虚形成的肺气虚证,痰和热形成的痰热证等,对基础证候展开研究可起到降维升阶的作用。

以往基于COPD 稳定期临床调查数据的频率分析表明,常见基础证候有肺气虚证、脾气虚证、肾气虚证、肺阴虚证、肾阴虚证、痰湿证、血瘀证[7]。近年来,隐结构模型、关联规则分析等数据挖掘方法越来越受到关注,多种数据挖掘方法的联合应用成为研究热点,运用智能计算机技术分析数据,可发现文献中隐藏信息。本文基于COPD 稳定期证候相关文献,通过证素关联规则分析及症状隐结构分析,深入挖掘基础证候分布及特征,以期为COPD 稳定期辨证规范及证候疗效评价研究提供依据。

1 资料与方法

1.1 文献来源

1.1.1 检索策略

计算机检索中国知网、万方数据库、维普数据库及中国生物医学文献数据库,以“(慢性阻塞性肺疾病+慢阻肺+慢性阻塞性肺病+COPD)AND(证+中医)”为检索式,检索时间为数据库建立至2018 年12 月31日。

1.1.2 纳入标准

COPD稳定期证候相关的文献。

1.1.3 排除标准

①综述类、动物实验相关文献;②重复发表的文献。

1.2 文献处理

1.2.1 文献筛选

采用Endnote x8 软件,由2 名评价者独立进行筛选。首先剔除重复文献;再通过阅读标题和摘要,根据纳排标准剔除不相关文献;最后阅读全文,剔除不合格文献。如出现分歧,由第3名评价者判定,直至意见一致。

1.2.2 数据提取与录入

采用SPSS 20.0软件,建立数据库。由双人独立提取并录入合格文献的文献类型、文献出处、发表时间、证候、症状等信息。

1.2.3 名词术语规范

参照《中医临床诊疗术语·证候部分》[8]、《中医药学名词》[9]对同一含义不同名称的证候、症状进行统一,如“痰浊阻肺证”、“痰湿蕴肺证”统一为“痰湿阻肺证”,“尿黄”、“小便黄”统一为“小便黄”。

1.3 统计与数据挖掘

1.3.1 统计描述

采用SPSS 20.0软件,对基础证候及症状进行统计描述(文献中复合证候需拆分为基础证候,如“肺脾气虚证”拆分为“肺气虚证+ 脾气虚证”,“痰瘀互结证”拆分为“痰湿证+血瘀证”)。

1.3.2 关联规则分析

参照《证素辨证学》[10]提取证素,如从“痰湿蕴肺证”中提取“痰、湿、肺”;从“肺肾气阴两虚证”中提取“肺、肾、气虚、阴虚”;采用SPSS Modeler 14.1 软件,基于Apriori 算法,依据最小支持度10%,最小置信度50%,提升度>1,把频次>5 的证素分别作为前项及后项,产生证素频繁项集及关联规则,并绘制网状图。依据强关联证素组合,推断COPD稳定期基础证候。

1.3.3 隐结构分析

采用孔明灯Lantern 5.0 软件(香港科技大学研制),基于双步隐树分析LTM-EAST 算法,对频次≥3的症状进行模型学习、模型诠释,并绘制信息曲线图;利用专业知识,对隐变量进行综合聚类,推断COPD 稳定期基础证候。

1.4 常见基础证候及其相应症状的确定

1.4.1 常见基础证候的确定

至少满足以下两个条件的基础证候判定为COPD稳定期常见基础证候:①关联规则分析中,依据强关联证素推断的基础证候;②隐结构分析中,通过综合聚类推断的基础证候;③统计描述中,频率≥10%且累计构成比≥75%的基础证候[7]。

1.4.2 常见基础证候相应症状的确定

若确定的常见基础证候满足上述条件②,则将隐结构模型中对应的显变量(症状)作为该基础证候相应的症状;若不满足,则采用文献中该证候对应的症状。

2 结果

2.1 文献检索结果

检索文献3582 篇,剔除重复文献1434 篇,阅读标题或摘要剔除不合格文献1775篇,阅读全文剔除文献170 篇。最终录入文献203 篇,计687 条记录(每个证候及其相应症状作为1条记录),其中涉及症状分布的文献132篇,计327条记录。

2.2 统计描述

共有基础证候20 个,频率≥10%且累计构成比≥75%的基础证候有:肺气虚证(40.6%,26.9%)、肾气虚证(19.7%,13.0%)、脾气虚证(19.2%,12.7%)、痰湿证(13.1%,8.7%)、肺阴虚证(12.8%、8.5%)、血瘀证(12.4%、8.2%)。基础证候分布(表1)。

表1 COPD稳定期基础证候分布情况

图1 证素关联规则网状图

涉及症状130 个,删除频次<3 的症状,剩余107个症状,包括咳嗽、喘息、咳痰、气短等。

2.3 证素关联规则分析

提取证素20 个,其中病位证素6 个,分别是肺、肾、脾、心、肝、表;病性证素14 个,分别是气虚、痰、阴虚、血瘀、阳虚、湿、火热、寒、气滞、饮、水停、风、血虚、阳亢。对频次>5 的17 个证素进行关联规则分析,依据最小支持度10%,最小置信度50%及提升度>1,得出7 条强关联规则,推导出5 个基础证候,分别是肾阳虚证、肺气虚证、脾气虚证、肾气虚证、肾阴虚证。以第一条关联规则“肾⇒阳虚”为例说明:其中肾为后项,阳虚为前项,置信度为80.0%表示肾出现时阳虚也同时出现的频率为80%,支持度为10.189%表示肾和阳虚同时出现的频率占总事件的10.189%,由此推断出肾阳虚证。网络图也显示肾与阳虚连接线条较粗,表明关联性较强。提升度表示后项的出现对前项出现的影响程度,大于1 才有意义。证素关联规则分析结果(表2)。证素关联规则网络图(图1)。

表2 COPD稳定期证素关联规则分析

2.4 症状隐结构分析

2.4.1 构建隐结构模型及模型学习

规范后症状130 个,将症状看作显变量,对频次≥3 的107 个症状构建隐结构模型;模型学习后得到31个隐变量,每个隐变量可反映疾病的某一侧面,分别记作Y0、Y2、Y3……Y30;每个隐变量有两个隐类,共62个隐类。评价标准为模型贝叶斯评分标准(BIC)评分,采用负分计量,分值越大越好,模型分数为-8783.26。构建的隐结构模型(图2)。

图2 隐结构模型图

2.4.2 综合聚类

对30个隐变量(隐变量Y6包含疾病层面的症状,故除外)进行综合聚类,得到10个综合聚类模型,依次记作 Z1、Z2、Z3……Z10,依据专业知识,推断出 10 个基础证候,分别是肺气虚证、脾气虚证、肾气虚证、肺阴虚证、肾阴虚证、肾阳虚证、寒饮证、痰热证、痰湿证、血瘀证。

2.4.3 模型诠释

以Z1(肺气虚证)为例,其概率分布,见表3。表中显示,综合聚类分析把病例分为两类,Z1=S0 这类患者约占总体的63%,Z1 = S1 这类患者占总体的37%。每个显变量有两个状态,症状不出现S0,症状出现S1。由此可看出,Z1 = S1 这类患者各症状出现概率较高,可认为有肺气虚证。信息曲线图显示,脉弱与肺气虚证的互信息最大,其次为舌质淡、神疲、易感冒、自汗等,当症状截取到脉细时,它们与肺气虚证的累计互信息达到95%(图中只显示当累计互信息达到95%时的显变量分布)。各综合聚类模型及信息曲线,见图3 系列。各综合聚类模型及其症状概率分布(表4)。

2.5 COPD稳定期常见基础证候的确定

结合以上方法,确定COPD 稳定期常见基础证候共8 个,分别是:肺气虚证、脾气虚证、肾气虚证、肺阴虚证、肾阴虚证、肾阳虚证、痰湿证、血瘀证。

表3 综合聚类Z1(肺气虚证)概率分布

3 讨论

辨证是中医药诊疗疾病的重要环节,证候具有多样性、复杂性、动态性等特点,近年来证候规范化、标准化研究成为热点。临床常见证候多以复合形式存在,复合证候间会出现内容交错重叠,如肺脾气虚证与肺肾气虚证,都含有肺气虚证。对基础证候展开研究,可起到降维作用,避免传统证候交叉重叠的问题,更具有针对性和灵活性。COPD 稳定期病位涉及肺脾肾等多个脏器,病性涉及气虚、阴虚、痰、血瘀等,基于COPD 稳定期证候相关文献,运用数据挖掘方法分析其基础证候分布及特征,具有重要意义。

图3 综合聚类模型及信息曲线图

常见的数据挖掘方法包括隐结构分析、关联规则、决策树、贝叶斯网络、聚类分析等,通过统计分析、信息检索、机器学习和模式识别等诸多方法,寻找大数据下的隐藏知识和规律,现已广泛用于处理医学数据研究[11]。多种数据挖掘方法的联合应用是近年来研究热点[12-14]。

关联规则是从大量的数据中挖掘发现项集之间有意义的关联,并寻找数据集中项之间的有趣联系的一种算法[15]。基于关联规则,有学者开展关于中药、证素、症状研究[16-18]。证素是组成基础证候的最小单元,本研究运用关联规则Apriori 算法,分析COPD 稳定期证素之间关联规则,发现证素间强关联关系,推断出基础证候。依据最小支持度10%,最小置信度50%及提升度>1,得出7条强关联规则,其中,推断出肺气虚证、脾气虚证、肾气虚证、肾阴虚证、肾阳虚证等5个基础证候。网状图显示的是,当关联强度为0-530 时证素的关联强度,线条越粗表示关联性越强。

表4 综合聚类模型症状概率分布

隐结构法是为辨证建立的一种客观、定量的研究方法,可指导西医疾病辨证分型[19,20],能较好的模拟中医医生诊病时,从患者的症状推导出证候的过程,最初多运用于分析临床调查数据[21]。随着应用的深入,隐结构法亦应用于分析文献研究数据[22]。本研究对频次≥3 的症状进行分析,得到31 个隐变量。其中,Y6有两个隐类,隐类S1 出现概率为81%,包含咳嗽、咳痰、喘息三个症状,且出现概率分别为92%、59%、79%,可认为咳嗽、咳痰、喘息是体现疾病层面的常见症状。对剩余30个隐变量进行综合聚类,并进行逐一诠释,结合专业知识,推断出肺气虚证、脾气虚证、肾气虚、肺阴虚证、肾阴虚证、肾阳虚证、寒饮证、痰热证、痰湿证、血瘀证10 个基础证候。由表3 可以看出,除痰热证、寒饮证外,各综合聚类模型的BIC评分均较高,表示模型较好。基础证候所对应的症状分布中,缺少反映COPD 特点的症状,如咳嗽、咳痰、喘息等,原因是疾病层面的症状未纳入综合聚类模型中,可认为是所有基础证候的共有症状。

本研究联合应用关联规则分析与隐结构模型,从证素和症状两个角度推断COPD 稳定期常见基础证候,同时结合基础证候频率及构成比,最终得出COPD稳定期常见基础证候有8个,分别是肺气虚证、脾气虚证、肾气虚证、肺阴虚证、肾阴虚证、肾阳虚证、痰湿证、血瘀证,提示COPD 稳定期以虚证为主,也可兼有实证,病位涉及肺、脾、肾。李建生[23,24]提出正虚积损为COPD 主要病机,以肺虚为始、以肾虚为基,以气虚为本、时或及阴阳,稳定期以本虚为主,主要指气(阳)虚时或及阴。较以往研究[7]增加肾阳虚证,考虑与COPD 病机及疾病特点有关,该病以老年患者多见,肺为气之主,肾为气之根,久病气虚及阳,出现肾阳虚证。本研究可为COPD 稳定期辨证规范及证候疗效评价提供依据。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!