基于风险处理机制的医疗数据挖掘算法研究

时间：2024-07-28

范烁楠

(广东省第二中医院，广东广州510095)

近年来，针对医疗IT信息化系统产生的海量数据信息无法得到高效利用的问题，为了提高医疗IT系统中对病情数据信息的高效深度控制，国内外学者们做了深入研究与分析，提出一系列医疗数据处理算法，形成一些新型的、高效的医疗数据挖掘结构模型，例如应用于医疗结构诊断分析的C4.5决策控制树算法。然而过于精确地衡量尺码的缺陷阻碍了此算法在医疗IT系统数据挖掘领域的应用与拓展。另一种是在医疗数据挖掘领域研究较深的关联规则算法，此算法的原理是利用不同特征关系的数据信息规则项进行挖掘研究，现已广泛应用于医学临床领域。目前典型的关联规则算法主要有Apriori和FP-growth方法。但在低符合率的条件下，关联规则算法会产生过多无用或冗余规则信息，而且存在可识别程度与效率过低的问题。

目前，基于安全风险参数与比值概率的医疗数据挖掘也已经应用于IT系统模型中。在此前提下，参考文献[1-2]都已设计出基于最优化安全风险结构模型数据挖掘算法，然而其缺陷都是冗余数据信息过多，且数据模型与信息展示过于复杂。

在上述研究成果的基础之上，本文设计出一种基于风险处理机制的医疗数据挖掘算法MRPM（Medical Risk Processing Mechanism），引入病情特征码值，使用权重参数抽取及病情有关的安全风险、预防与诊断因素。该算法在医疗IT系统数据挖掘与分析中数据信息冗余度较低、效率高，并且展现方式更加立体、直观。

1 相关研究

1.1 相关算法

1.1.1 最优化安全风险模型算法

病情种类情况从医疗数据信息角度可以分为恶性与良性两种。模型一般被说明为：特征码值的集合，最优化安全风险模型获取的结果是恶性，而其预防与诊断模型出现的结果是良性。针对此种情况，参考文献[3]提出了一种MORE算法，用于得到最优化安全风险与预防数据结构模型。

MORE算法一方面采取部分支持度挖掘使用频率较高的数据结构模型，再采用病理学中对应于安全风险指标项得到最优化安全风险与预防数据结构模型。为了使模型更加直观，本文通过病情特征码值的长度设置操作模型坐标值项，该模型满足反单调原则。

1.1.2 医疗数据挖掘算法

基于最优化安全风险与预防数据结构模型尽管能识别典型病情数据结构，但其结构存在明显的误区，影响医疗IT系统病情诊断环节。针对这一缺陷，本文设计了一种基于风险处理机制(包含最优化安全风险与预防能力)的医疗数据挖掘算法。此算法创造性地加入病情特征码值，形成了最优化风险集合与预防集合。并采用权重参数对每个集合进行度量，使集合中每个病情特征码值的权重参数与病情数据信息使用频率构成正比函数关系，从而体现出每个病情特征码值对医疗诊断与预防方面贡献程度[4]。

1.2 MRPM算法

相关符号的定义如下：m1是最优化安全风险结构模型的数量；m2是最优化预防结构模型的数量；spt是部分支持度的参数值；m1*spt是初始化安全风险集合的期望使用频率参数标准值；m2*spt是初始化预防集合期望使用频率参数标准值；R1、R2是初始化安全风险与预防集合中病情特征码值数量；R1′、R2′是非初始化安全风险与预防集合中病情特征码值数量。为了方便，分别使用 IRS、IPS、RS、PS代表初始化安全风险与预防集合以及非初始化状态的安全风险与预防集合，RFS、PFS分别表示安全风险与预防使用频率指标项，RSM、PSM分别表示安全风险分数矩阵与预防分数矩阵 (RSM、PSM分别对应RS、PS中每个病情特征码值参数项)。

若 IRS=[IRi1，IRi2，…，IRiR1]T、IPS=[IPi1，IPi2，…，IPiR2]T，对应的 IRFS=[IRf1，IRf2， …，IRfR1]T、IPFS=[IPf1，IPf2， …，IPfR2]T。其中集合满足以下特性：

(1)IRf1≥IRf2≥…≥IRfR1≥m1*spt

(2)IPf1≥IPf2≥…≥IPfR2≥m2*spt

若IRS与IPS有交集，且不为空，因为 IRS与 IPS彼此矛盾，因而需要将其公共特征值参数铲除，则可以得到包括RS、PS、RFS、PFS集合，它们之间的相互关系如下：RS⊂IRS；RFS⊂IRFS；PS⊂IPS 以及 PFS⊂IPFS。若RS=[Ri1，Ri2，… ，RiR1]T、PS=[Pi1，Pi2，… ，PiR2]T，对应于 RS、PS 的 RFS=[Rf1，Rf2，…，RfR1]T、PFS=[Pf1，Pf2，…，PfR2]T。其中满足以下特性：

(3)Rf1≥Rf2≥…≥RfR1≥m1*spt

(4)Pf1≥Pf2≥ … ≥PfR2≥m2*spt

RSM与PSM则满足以下特性：

若病情特征码值权重参数≥式(5)中第一项与第二项之和，则可以判定病者存在一定安全风险，与之相对应，当病情特征码值权重参数≥式(6)中第一项与第二项之和，则可以判定病者暂无安全风险。

MRPM算法中包含两个核心函数机制，一个产生（IRS、IPS），另一个产生带有病情特征码值权重参数的（RS、PS）。这两个函数的机制原理分析如下。

1.2.1 函数 1：产生（IRS、IPS）

输入参数：最优化安全风险与预防数据结构模型、m1*spt、m2*spt；输出参数：IRS 与 IPS。

（IRS、IPS）输出过程如下：

(1)得到最优化安全风险与预防数据结构模型，计算出初始化与非初始化安全风险集合的期望使用频率参数标准值 m1*spt、m2*spt。

(2)对病情特征码值进行使用频率统计，过滤其中期望使用频率值小于期望使用频率参数标准值。

(3)对统计的期望使用频率值进行降序排列，其中IRS由最优化安全风险数据结构模型中病情特征码值参数项构成，IPS由最优化预防数据结构模型中病情特征码值参数项构成。

尽管函数1得到(IRS、IPS)，然而它们之间的公共特征参数项会给安全风险与预防机制带来数据误差，因此需要预先铲除。

1.2.2 函数 2：产生（RS、PS）

输入参数：（IRS、IPS）；输出参数：（RS、PS、RSM、PSM）。（RS、PS、RSM、PSM）输出的过程如下：

(1)铲除（IRS、IPS）的公共特征参数项。

(2)重新对病情特征码值进行使用频率统计，且降序排列，得到 RS=IRS、PS=IPS。

(3)依次计算RS和PS的病情特征码值权重参数，获取 RSM、PSM。

步骤(3)过程是通过 1.2节的步骤(5)、(6)推导得出的，其中100为总权重参数值。

2 测试结果与应用分析

本文使用了两组UCI数据库中取得的医疗数据信息基准集合以及最典型的最优化安全风险与预防数据结构模型[5]，采用对比论证方式进行测试应用与分析，其中数据信息说明如表1所示。

表1 UCI医疗数据信息说明

2.1 安全风险与预防模型对比分析

由UCI医疗数据信息说明中可知，本文依次使用了类比率为30的免疫系统功能衰退与类比率为4的淋巴癌示例进行测试，为了保证实验的广泛性，使用了不同的类比分布概率。两种医疗数据信息集合分别进行了最小熵离散化与隔离分布处理，数据信息集合中的spt的最小值分别为7%和33%，病情特征码参数值度量分别为L=6、L=7,相对安全风险参数最小值为1.2。

在取得最优化安全风险与预防数据结构模型以及从核心函数机制中输出的病情特征码参数项的前提下，采用MRPM算法在医疗数据信息中深度挖掘带有权重参数值的安全风险与预防集合。

为了对比最优化安全风险与预防数据结构模型、最典型的安全风险和预防数据结构模型以及 (RS、PS)中的病情特征码参数值，当数据源为免疫系统功能衰退时，与最优化安全风险和预防数据结构模型相关的病情特征码值分别是334和194，典型性安全风险与预防数据结构模型涉及的病情特征码值分别是13和4。相类似，当数据源为淋巴癌时，与最优化安全风险与预防数据结构模型相关的病情特征码值分别是714和296，典型性安全风险与预防数据结构模型涉及的病情特征码值分别是45和57，而RS、PS中涉及的病情特征码值分别是13和4。

上述病情特征码值对比结果说明：在最优化安全风险与预防数据结构模型相关的病情特征码值、典型性安全风险与预防数据结构模型涉及的病情特征码值远远大于（RS、PS）中的相关病情特征码值。其中带有权重参数值越大，病情特征码值影响程度就越高，对病情影响也越大，反之一样。从而表达了（RS、PS）能够深度挖掘出与病情最具有关联[6]的安全风险及预防因子。

2.2 （RS、PS）中每个病情特征码值的权重参数

对于病情特征码值而言，其内部的权重参数出自于（RS、PS）中的百分比率。它能够判定其病情特码值的影响程度，并且也能够通过它来观察病者病情的安全风险权重参数与预防权重参数。MRPM算法在免疫系统功能衰退数据信息集合中的 RS、PS如图 1、图 2所示，其中spt=0.06，L=5，图中下面一栏统一是病情特征码值。

图1 RS中病情特征码值权重参数

从图1可以得出结论：RS中最大的两个病情特征码值权重参数是immune_surgery=r(18.315 0)和query_hypoimmune=r(12.087 9)。所以，相对于免疫系统功能衰退，两个最大的病情特征码值的权重之和为30.402 9。依据上述推理论证说明此病者的病情特征码值的权重参数之和≥30.402 9，此病情患有免疫系统功能衰退的安全风险；但是在PS中，最大的两个病情特征码值权重参数分别是 immune_surgery=p(23.7 624)、immunty=p(20.792 1)。可知其权重参数之和为44.554 5。因此，若病者病情特征码值的权重参数＜44.554 5，则患有免疫系统功能衰退的概率较高。

图2 PS中病情特征码值权重参数

在最优化安全风险与预防数据结构模型及最具典型的安全风险与预防数据结构模型的基础之上，本文在医疗数据挖掘中创造性地引入了病情特征码值，并对其设置相关权重参数，且通过权重参数判定其病情特征码值的安全风险与预防影响程度，对医疗数据信息进行深度挖掘。测试结果显示，所设计出的MRPM算法可以深度挖掘具有典型性质的病情特征码值，且展示立体、直观，对医疗工作者提供了更加有效的参考价值。

[1]Wang Guoyin.Rough reduction in algebra view and information view[J].International Journal of Intelligent System，2003，18(3)：679-688.

[2]叶明全，伍长荣，胡学刚.基于粗糙集的医疗数据挖掘研究与应用[J].计算机工程与应用，2010，46（21）：232-237.

[3]邵峰晶，于忠清.数据挖掘原理与算法[M].北京：中国水利水电出版社，2003.

[4]KANTARDZIC M.Data mining concept，models，methods and algorithms[M].IEEE Press，2002，12(4)：223-263.

[5]张俊鹏，贺建峰，马磊.基于最优风险与预防模型的医疗数据挖掘算法[J].计算机工程，2011，37（22）：33-37.

[6]Li Jiuyong，Fu Waichee，FAHEY P.Mining risk patterns in medical data[C].Proceeding of the 7thACM SIGKDD International Conference on Knowledge Discovery in Data Mining，New York，USA：ACM Press，2005：770-775.