时间:2024-06-19
□ 吴燕秋 WU Yan-qiu 黄伟 HUANG Wei 刘慧鑫 LIU Hui-xin 马敏 MA Min 王天兵 WANG Tian-bing④
Objective To elaborate the experience and effect of automatic collection and integration of heterogeneous multisource data, screening of patients with trauma, establishment of a unified standard trauma data model, and data intelligent processing in the development of hospital trauma database. Methods The patients with trauma characteristics were screened from the medical data of the hospital through combining ICD codes and diagnosis names. A unified standard trauma data model was formulate for scientific research and quality control. The data of trauma patients were processed with intelligent method. Results The trauma database in the study included nearly 20,000 cases of trauma inpatients from January, 2012 to November, 2020; and 191 structured data sets were established. The database developed the functions of case retrieval,whole disease course view and data set export. Conclusion The development of the trauma database can help produce standardized, structured and high quality data of trauma inpatients automatically and consecutively, thus improving the efficiency of trauma research and enhancing the medical quality control of trauma in the hospital.
随着对临床科研的重视,以临床研究为目的的专病数据库与日俱增,国内已有不少医院建立了自己的专病数据库。金涛等[1]对国内外疾病数据库的建设情况进行了归纳总结:早期建立的数据库大多为单一数据库,未与医院信息系统(HIS)连接;之后有基于Web的数据库系统,但这些数据库主要是基于现有的HIS或电子病历系统,数据源单一、维度不够丰富、数据结构化程度不高,且存在元数据一致性和规范性差等缺陷,导致数据库整体呈现重复建设、利用率低等弊端[2]。随着人工智能技术在医疗领域的发展,国内一些医院基于标准化、结构化的疾病数据模型,建立了智能专科疾病库[3-5]。美国、欧洲、日本等国家在疾病数据库领域起步较早,已经建立了不同疾病的国家级数据库,包括美国麻省理工学院与贝斯以色列女执事医疗中心联合研发的重症监护医学信息数据库(MIMIC)和美国国家创伤数据库等。MIMIC数据库是一个多参数、智能化的重症监护数据库,它涵盖了来自不同人群的ICU患者住院全程的临床数据资料,已运转10余年,并对全球的医学研究者免费开放,为全世界急重症疾病研究提供了海量的数据支持,也为急危重症的真实世界研究(RWR)提供了数据基础[6]。早在1982年,美国外科医师协会(ACS)开始牵头创伤数据库的建设研究,至今,美国国家创伤数据库已成为全美最大的创伤登记数据库,从全美成百上千家创伤登记中心采集病例数据,为创伤疾病研究与发展奠定基础。
数据是当今时代智能医疗的核心所在,临床研究需要大量高质量、结构化、标准化的数据作为基础。鉴于当前开展创伤疾病临床研究面临的数据获取困难、标准不统一、数据非结构化等问题以及创伤医疗质量控制的实际需求,本文采集并整合了医院多个信息系统的临床数据,从中筛选出符合创伤疾病特征的患者数据集,使用人工智能技术进行数据加工与深度处理,建立了结构化、标准化的创伤专病数据库,为创伤疾病研究和医疗质量控制提供了高质量的数据支撑。
1.自动采集多源异构数据。本文通过开放医院多个信息系统的数据库访问接口,使用人工智能技术,自动、持续性地采集其中的结构化、半结构化、非结构化数据。使用ETL(Extract-Transform-Load)技术将数据从多个不同的数据源经过抽取、转换、加载至目标数据库[7]。具体开放的信息系统及采集的数据信息内容见表1。
表1 医院临床业务信息系统数据采集内容
2.筛选创伤疾病患者。国际研究通常使用ICD-10-CM编码来识别研究人群,美国国家创伤数据库对入库的创伤特征患者的筛选也是基于ICD-10-CM编码,其纳入了ICD-10-CM 编 码 范 围 在 S00-S99,T07,T14,T20-T28,T30-T32,T79。A1-T79.A9中的患者数据集,并排除编码 为 S00,S10,S20,S30,S40,S50,S60,S70,S80,S90的患者数据集。然而基于前人的研究发现,在中国仅仅使用ICD编码来识别研究人群并不准确,主要原因包括两点:(1)我国的ICD编码有多种版本,并没有一个统一的标准。仅仅使用某一种ICD编码标准并不能全面筛选符合创伤特征的目标患者;(2)在医院的临床业务信息系统中,很多数据是文本形式(非结构化数据)的形式存储,部分诊断名称与ICD编码对应的诊断名称并不完全一致。仅仅使用ICD编码来筛选会遗漏实际符合创伤特征的患者就诊数据。
2.1 根据ICD编码和诊断名称初步筛选。根据国家卫生健康委员会医政医管局医院质量监测系统研究中心发布的《住院病案首页数据采集接口标准》中使用的北京版、全国版RC020-ICD-10诊断编码,初步定义创伤特征诊断的ICD编码在如下范围内:S00-S99,T00-T14,T20-T31,T79,T90-T95,V01-V99,W00-W64;并结合常见创伤疾病诊断名称可能包含的关键词,包括“活动受限”、“多发伤”、“骨折”等创伤疾病相关症状和“挫伤”、“扭伤”、“挤压”等创伤疾病相关病因等,见表2,通过算法层层循环迭代,并结合人工标注判断,对全院临床业务信息系统中采集的患者数据集进行了初步筛选。
2.2 精确筛选严重创伤疾病患者。根据《国家卫生健康委办公厅关于印发国家创伤医学中心及国家创伤区域医疗中心设置标准的通知》(国卫办医函[2019]700号)文件的《附表1:严重创伤病种》和《附表2:严重创伤并发症》中的疾病名称和疾病分类代码,精确筛选符合附件要求的严重创伤疾病患者。
表2 用于初步筛选的常见创伤疾病诊断名称包含的关键词
3.设计并建立创伤住院患者统一标准数据集模型。数据集模型的设计与建立有助于建立数据标准,规范数据内容。早在2006年,美军就根据数据采集需求和创伤伤员救治流程建立了联合战场创伤系统(JTTR)标准化框架结构,使得不同救治机构使用统一的数据记录流程表[8]。本文参考了美国国家创伤数据库的数据集模型,依据国内创伤患者实际诊疗流程,并根据《关于进一步提升创伤救治能力的通知》(国卫办医函[2018]477号)文件的《附件3:创伤中心医疗质量控制指标》中的16项指标,制定了创伤住院患者统一标准数据集模型,见表3,包括9个模块,14个分组,191个字段,且对每个模型定义了数据格式、字段长度、值域、内容约束等,制定了统一的规则处理标准,为创伤住院患者数据的标准化、规范化收集与利用,创伤中心医疗质量控制和未来跨机构数据共享奠定了坚实的基础。
表3 创伤住院患者数据集模型各模块及其内容描述、字段数量
4.数据处理与加工。数据深度加工主要是将创伤住院患者的原始数据映射到统一的标准数据模型上,再通过人工智能等技术手段,对数据进行自然语言处理,数据归一和结构化处理的过程[9]。
4.1 模型映射与重构。根据制定的创伤患者统一标准数据集模型,将入库的创伤住院患者的原始数据映射到统一标准的数据模型上,并按照制定的标准数据类型和清洗规则等对数据内容进行重构,且对现有数据中存在的不完整、不准确和不标准的“脏”数据进行清洗,见图1。
4.2数据归一、标准化处理。由于医生书写病例的个人习惯与表达不一,医院原始信息系统中存在大量文字表达不同,但含义相对一致的信息。文本通过对原始数据进行总结、归纳,按照数据集模型对数据进行了归一、标准化处理。例如,将“导尿”、“保留导尿”、“留置尿管”、“尿管接无菌袋”、“导尿管留置”等相关文字表达都归一处理为“护理记录”模块中“导尿”字段中的信息。
4.3 数据结构化。为了进一步提高数据的可利用性,形成临床科研所需的研究变量,本文使用自然语言处理技术对原有的文本病历数据等大量非结构化数据进行了结构化处理,将这部分数据在一定程度上变成可二维展现的数据。例如,对入院记录的既往史等文本中的“吸烟”“饮酒”等字样进行智能识别,将“病史”模块中“当前吸烟”“当前饮酒”等字段的值域填充为“是”或“否”。
本文建立的创伤专病数据库共纳入了2012年1月至2020年11月近2万余名创伤住院患者的诊疗数据,并形成了191个结构化数据集。目前有25名临床医生应用本数据库进行了临床研究。该数据库能够为医生提供全流程自助式科研工作,功能包括:支持全文查询、单一条件查询和多条件组合查询,能够方便快捷地筛选出符合研究要求的目标患者及其相关数据;以时间轴形式展示入库创伤患者的历次住院记录,当医生制定检索条件定位到目标研究人群时,可以点击查看患者的全病程诊疗数据;此外,还可以excel格式导出医生感兴趣的目标患者的结构化数据集。
本文将分散在医院各个信息系统中的创伤住院患者的多源头治疗方案、用药情况、治疗效果等诊疗数据全面整合起来,构建疾病和诊断、症状、用药、手术等关键要素的关联关系,建立了创伤专病数据库。医院创伤专病数据库的建立能够自动、持续性地生成标准化、结构化的创伤住院患者诊疗数据,促进开展高质量、高效率的创伤疾病研究[10],助力创伤医疗质量控制。下一步,可望在全国范围内推广创伤专病数据库的标准化建设,从而建立国家级创伤数据库,为开展基于大数据的多中心创伤疾病临床研究以及建立基于数据导向的创伤救治质量控制体系提供强大的数据支持。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!