当前位置:首页 期刊杂志

新冠肺炎专题研究论文数据平台的对比研究

时间:2024-07-28

刘静

新型冠状病毒肺炎(Corona virus Disease 2019,COVID-19)疫情暴发以来,全球科研人员展开了一场紧张的学术接力,致力于尽快挖掘和表征该病毒,以更好地抗击疫情。2020年1月31日,60多个研究组织、期刊和出版商(现已增加至158个[1])签署了一份联合声明,承诺“迅速、公开”分享与疫情相关的研究数据和发现[2]。国际顶级医学期刊The Lancet、The New England Journal of Medicine(NEJM)、The Journal of the American Medical Association(JAMA)、British Medical Journal(BMJ)等纷纷对疫情进行了专题报道。为了应对疫情的快速传播,大多数研究论文在bioRxiv、medRxiv、SSRN、chemRxiv以及ChinaXiv等预印平台公开[3],中华医学会系列杂志及国内其他生物医药卫生杂志通过预出版策略陆续在线发布经过同行评议的COVID-19相关论文[4]。为更有效地整合相关资源,各组织及出版商推出了新冠肺炎专题数据平台,集成新冠肺炎相关研究成果,为临床医务工作者、科研人员及公众提供及时、全面、系统的科学知识,为抗击疫情贡献力量。本文选取10个新冠肺炎专题研究论文数据平台,对其平台内容进行对比分析,为科研人员的使用提供参考。

1 主要的新冠肺炎专题研究论文数据平台

根据Aminer知识疫图统计,截止到2020年4月2日新冠肺炎开放数据源已有128个[5],其中有关于疫情动态追踪的实时数据及资讯、疫情专业术语、科普知识、社会舆情及政府政策等数据集;在关于科研的开放数据集中,有的集中于新冠肺炎病毒基因组序列数据及新冠肺炎的专利、标准等,有的通过构建新冠肺炎检索式在数据库中得到检索结果而构建的新冠肺炎专题平台,如Elsevier的“Novel Coronavirus Information Center[6]”、SinoMed的新冠肺炎专题[7]等。而本文主要考察的是集成了多文献来源的新冠肺炎研究论文专门数据平台,且截至2020年4月2日还保持更新的数据平台(如NSTL新冠肺炎应急文献信息专栏[8],2020年3月后再无更新,因此不在所选之列)。满足要求的10个新冠肺炎专题研究论文数据平台如表1所示。

表1 10个新冠肺炎专题研究论文数据平台概况

2 新冠肺炎专题研究论文数据平台对比

2.1 基本情况对比

对10个新冠肺炎专题研究论文数据平台,从著录项目、收录篇数、更新周期、期刊种数作了系统分析。收录篇数、期刊种数统计更新时间为2020年11月5日。见表2。

表2 新冠肺炎专题研究论文数据平台基本情况

表2 (续)

需注意的是:①知网新冠OA平台联合倡议中涉及中华医学会杂志社,两者于2020年4月底展开合作后才进行了相应更新。②知网新冠OA平台、中华医学新冠平台、万方新冠频道这3个平台国内期刊占多数,其他7个平台国外期刊占多数,同时包含部分被PubMed、Medline等国外数据库收录的国内期刊。③中科院2019-nCov科研论文检索平台最新发布时间为2020年3月30日,收录内容中存在大量重复,其在最新研究页面中提供的论文数据更为准确;2020年11月该平台名称已变更为“COVID-19科研动态监测”。④ AI2新冠数据集,收录了COVID-19及冠状病毒家族的研究论文,其数据量较大。该数据集提供json格式文件,旨在让研究人员通过机器学习来加速对文本的挖掘和解读,更加高效地寻找对抗新冠病毒的方法。⑤科睿唯安新冠专栏文献按研究主题显示,它没有总的文献数据浏览界面,每个主题之间存在重复的文献,所以统计的是累计篇数(未去重)。

10个数据平台对时间的著录不同,有些是在平台上的发布时间,有些是在其期刊上的网络出版时间。多个平台时间著录缺失或错误,如2019 nCoVR来自PubMed的数据大量标注为2020.01.01,还有标注5月、6月及12月;科睿唯安新冠专栏出版时间有些标注年月,有些只标注年。

最早发布新冠肺炎研究论文的数据平台为LitCovid,于2020年1月17日发布两篇,出版时间分别为2020年1月14日和15日;第二是AMiner NCP更新两篇2020年1月19日在预印本平台上发布的论文(AMiner 2020年1月19日前也有论文数据,但研究内容与新冠肺炎无直接关系);第三是知网新冠OA平台2020年1月21日出版1篇,1月23日中科院2019-nCov更新1篇,2020年1月29日万方新冠频道发布24篇,1月31日中华医学新冠平台出版1篇。

随着时间的推移且随着疫情的缓解,相关文献的产出量及关注度有一定的下降,有些平台已不再更新或更改内容,如万方新冠频道文献速递页面更新时间截止至2020年7月1日,其他页面更新时间截止至2020年4月或3月;科睿唯安新冠专栏于2020年11月已更改网址及网页内容。

2.2 文献分类的程度

各新冠肺炎专题研究论文数据平台文献分类中,除AI2新冠数据集外,其他平台均有分类类目,各平台分类略有不同,5个平台有研究主题类目,5个平台有文献来源类目,4个平台有文献类型类目,其他还包括学科、发布时间、冠状病毒经典文献、相关研究前沿、国家类别等。各平台分类相对分散,跟数据库相比略为简单,无统一字段。见表3。

表3 新冠肺炎专题研究论文数据平台文献分类情况

2.3 检索利用便捷程度

各新冠肺炎专题研究论文数据平台检索利用便捷程度如表4所示。就检索功能而言,不能提供检索的有AMiner NCP及科睿唯安新冠专栏,其他平台都能提供一定检索。其中知网新冠OA平台的检索功能与知网主页同步,提供多途径检索,其检索结果也同步到知网主页,不仅限于新冠OA平台;万方新冠频道检索功能较弱,只能对题名和摘要中的词语进行关键词检索,AI2新冠数据集通过CORD-19 Explorer检索,其检索结果中不相关的居多。

关于数据导出,提供一键导出的平台有科睿唯安新冠专栏、AI2新冠数据集、WHO COVID-19及LitCovid。科睿唯安新冠专栏只能一键导出一个专题的一周更新文献,导出为ciw格式;AI2新冠数据集可一键导出所有文献记录及全文pdf版,所有数据的元数据导出为csv格式、pdf全文为json格式;WHO COVID-19也可一键导出所有文献数据,有csv及4种文献管理软件格式文本,2020年5月25日之后,其一键导出功能已取消,可在平台中选择导出;LitCovid可一键导出所有或者所选文献,有tsv、ris格式。另外,知网新冠OA平台、中华医学新冠平台及万方新冠频道中的中华医学会专区可提供单条数据的多格式导出(知网新冠OA平台2020年11月前可选择导出);中科院2019-nCov可导出单页面中的一条或多条数据,导出为doc格式。

就全文获取而言,由于各组织及资源商们对新冠肺炎研究数据的“公开”,基本上每个数据库都能下载全文或提供全文链接。见表4。

表4 新冠肺炎专题研究论文数据平台检索利用便捷程度

3 对新冠肺炎专题研究论文数据平台的思考

3.1 平台数据规范化有待加强

知网倡议全国的医药卫生期刊关于新冠肺炎研究论文在其OA平台上网络首发,该平台集成的国内期刊种数最多,但有些新冠肺炎的研究论文可在知网上被检索到,因不是网络首发,故没有出现在该首发平台。中华医学新冠平台对中华医学会系列期刊进行预出版,还收集了国家卫健委、国家中医药管理局、WHO、CDC等机构的指南共识等,除研究主题外还对文献进行了学科分类,这是其他平台所没有的;还提供每日概览,明了每日数据变化情况,但其收录的文献量最少。万方新冠频道对文献数据的著录比较简单,检索功能较弱,但其有特有的期刊,还设立了中医药防治专区。中科院2019-nCov和AMiner NCP期刊种数和数据量较少,但两者对收录的外文文献进行了加工整理及中文解读,前者形成了每日快报、累积资料汇编、文献内容梳理、报告摘编等研究报告,可直接下载利用;后者形成研究时间线,不仅解读了研究论文还加入专家论点和学术事件,能让科研人员对有关情况一目了然。2019 nCoVR在国内平台中收录范围最广,收录数量最多,但其分类不够细致,只做了文献类型的分类。

科睿唯安新冠专栏利用科睿唯安的资源优势列出了各研究主题的高引用文献、冠状病毒的经典文献及研究前沿,但它在4个国外数据平台中数据量最少,且更新时间最早的几周收录的文献不能提供一键导出功能。AI2新冠数据集收录数据量较大,包含COVID-19及冠状病毒家族的研究论文,对不能进行机器学习的研究人员来说数据量太大,且检索查准率太低。WHO COVID-19是唯一一个在初始统计期间功能越来越多的数据库,致力于全球多语种研究论文的收录,其不足是虽然对文献做了分类统计,但还不能按分类进行浏览。LitCovid使用方便,功能也比较完善,不足是只收录了期刊论文,而且作为国外数据库收录国内期刊种数太少。

由此可以看出,不同平台收录数据的侧重点不同,其检索功能也有一定差异。不同平台之间数据管理水平参差不齐,部分数据更新周期不稳定、元数据著录不规范等,数据格式和标准存在差异,这导致科研人员在获取文献信息时出现数据壁垒,因此平台在保证持续更新数据的前提下,需规范数据标准,设置较为统一的数据著录格式,使得平台使用更为规范合理。

3.2 OA出版需进一步常态化

新冠疫情的暴发促使学术资源在短时间内可以免费获取,国内各大出版商对其部分数据库资源予以免费,国外出版商对其期刊平台新冠相关资源免费。数据平台仅能提供资源整合,资源内容尚需学术期刊的产出,疫情过后或疫情常态化后,在运营成本及经济效益的前提下,各数据平台可能会停止更新数据,科研人员对新冠研究的热情亦会消退,这对平台的可持续化发展不利,如何在有效保障新冠肺炎研究内容产出的同时保持内容出版的OA化是需要考虑的问题。本文所统计的10个数据平台,均是依靠国际化组织、第三方知识服务平台等现有技术手段,在疫情期间开辟专栏提供免费服务,以此也可提高数据服务平台的知名度及使用量,但其内容数据量不够大,传播效果有限。后续可将新冠专题平台整合嵌入出版商运营平台,继续保持OA开放资源,如此既能提升数据库平台整体效益,亦能有效支持新冠肺炎研究成果的纵深化使用,从而达到期刊、数据平台、出版商多方共赢效果。

3.3 应急联盟尚需组织体系化

新冠肺炎开放数据平台内容离散,资源不一,且不同平台收录内容存在重复,这给科研人员使用平台资源带来了一定困难,可能会增加不必要的检索成本。10个数据平台中有部分商用企业平台,部分为非盈利组织开放平台,在保障知识产权的基础上,如能整合不同平台间的资源,如WHO联合NIH、科睿唯安等整合国内外新冠专题信息,中科院、国家生物医学信息中心联动知网、万方、中华医学网等统一平台,组成联盟体系,形成统一的数据规范,既能一次性在同一平台上检索内容产出结果降低运营成本,减少科研人员获取不同平台文献资源的时间,也能更好地传播新冠肺炎相关研究成果、指南规范、科普知识等,内容更为丰富,也更能得到大众对专业知识的理解。

新冠肺炎疫情的暴发给科研人员开展学术研究提供了机遇与挑战,国内有些重大研究成果在国外期刊上发表,但也不乏优秀成果发表在国内期刊上,所以对科研人员而言,不能局限于一定范围内的研究成果。随着疫情对全球的影响越来越强,影响范围越来越广,关于新冠肺炎的研究论文也会越来越多,疫情能不能取得重大研究进展还要靠全球科研人员的努力。目前国内的疫情已得到逐步控制,正是研究人员投身科研的良好时机。疫情的暴发,扰乱了人们常态化的生活及生产模式,图书情报人员也在积极思考疫情期间如何做好情报服务,前期一些图书馆通过微信公众号、通知等方式推送了新冠肺炎相关免费学术资源集合[9-11]。本文对目前已有的新冠肺炎专题研究论文数据平台进行对比研究,分析各平台的特点和不足,从平台数据规范化、OA出版常态化、应急联盟体系化角度提出了思考与讨论,以期给相关科研人员提供帮助,便于更高效地利用和使用不同特征的文献数据平台。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!