当前位置:首页 期刊杂志

基于专利和论文的药物关联分析

时间:2024-08-31

药物从最初的开发到实验室研究,再经过层层审批及大量的临床试验验证,到最终获得批准上市,整个过程复杂而漫长[1]。随着上市药物数量的逐年增加,在帮助人们抵御越来越多疾病的同时,如何有效利用药物研发过程中产生的数据和资料,从中挖掘更多潜在有用的知识变得越来越重要。相比其他在研药物,上市药物具有药效明确、药理毒理作用明晰等优点,如能有效利用上市药物的相关信息,则能够助力医药事业的发展。早在2013年,哈特曼[2]等人就对各国药物的上市情况进行过分析,对政府审批的流程提出了优化意见,从而大大提升了此后药物审批的效率;冯金[3]等人从产业的视角对全球的上市抗ED药物相关技术进行梳理,为企业制定竞争策略提供指导,有效提升了企业的技术竞争力;上海药物研究所毛艳艳[4]等在技术难度、销售市场等方面对全球的上市抗肿瘤药进行研究,客观描绘了现今肿瘤药物的研发形势,为药物研发工作提供了参考和帮助。

然而药物相关信息来源广、内容分散、形式多样,怎样在纷杂的数据中快速挖掘到用的信息,学者们在方法学上进行了不少尝试。凯斯西储大学的Rong Xu[5]通过提取论文摘要中的“药物-疾病”对发现药物与疾病之间潜在的关联关系,从而发现了药物更多的适应症;Quoc-Chinh Bui[6]等人通过挖掘文本中包含药物名称的语句和训练支持向量机分类器,发现了药物与药物间的相互作用;中南大学的胡德华[7]等人通过构建数据立方体探查“疾病-基因-药物”之间的多维关系,为疾病的精准治疗提供了新的方向。

心绞痛是一种常见的由冠状动脉供血不足导致的缺血性心脏病[8]。2017年出版的《中国卫生和计划生育统计年鉴》显示,我国医院出院患者疾病转归数据中,心绞痛的疾病构成逐年递增,在2016年达1.08%[9],心绞痛已对我国人民的生命健康构成了巨大威胁。本文通过计量学手段以及数据挖掘的方法,对抗心绞痛上市药物所蕴含的潜在信息进行探究,为今后药物信息的使用提供参考。

1 数据来源与方法

药物的研发过程也是科学和技术不断发展的过程,科学研究的新进展常常通过发表论文的形式体现。技术因为不同于基础研究的经济特征,需要通过申请专利加以保护。传统研究多局限于论文或专利文献的单一知识载体,往往忽略了科学和技术的特异性和互动性,只有科学和技术协同发展才能最终保证药物的顺利研发及上市。本文选取科睿唯安 Clarivate Analytics旗下的Cortellis数据库,以“angina”为主题词进行检索,共检索出抗心绞痛上市药物51种,并以此为基础检索PubMed数据库、药智专利数据库和全球上市药物数据库。PubMed数据库是美国医学图书馆(NLM)下属国家生物技术信息中心(NCBI)开发的文摘型数据库,是目前公认的权威生物医学文献检索工具。以药物通用名作为物质名及其同义词或补充概念进行检索,共得到论文89 594篇;药智专利数据库涵盖中美欧等多个国家或地区的专利数据,将药物名称与专利进行关联,按药物名称进行检索后共得到相关专利8 474项。

分别对论文数据进行以下处理。

将PubMed文献数据和药智专利数据进行清洗、统计,得到文献的“年度-数量”信息及“年度-累计量”信息,并计算文献增长率,绘制增长曲线。

测度不同研发阶段论文和专利的知识贡献的差异,计算每篇论文和每项专利与其对应的上市药物之间的时间跨度。

其中,论文-药品时间跨度:Y1=论文发表年-药物上市年,专利-药品时间跨度:Y2=专利公开年-药物上市年。将论文和专利按照一定规则进行分类,其中论文按照Web of Science(WOS)的学科分为104类,专利则按照申请内容分为化合物、药品衍生物、医药中间体、晶型、制剂、组合物、用途、制备方法、诊断与分析化验、给药装置、生物技术和生物药12类。其中化合物,即新分子实体(New Molecular Entity,NME)专利是该上市药物的核心专利,其他类型专利为非核心专利。之后计算不同学科论文的时间跨度分布和不同类型专利的时间跨度分布。

利用PubChem系统标引论文文本中同时出现的疾病、物质和基因/蛋白质等主题词,并构建抗心绞痛上市药物(以下简称为“药物”)与其他物质、疾病、基因/蛋白质的共现频次矩阵。以“药物-物质”共现矩阵为例,aij表示第i行药物与第j列物质的共现频次,即第i行药物与第j列物质共在aij篇学术论文中被同时提及。然后将共现的物质按照共现的频次进行排序,频次最高者的秩数为1,频次次高者的秩数为2。以此类推,将“药物-物质”的频次矩阵转换为秩数矩阵,bij表示第i行药物与第j列物质的共现频次秩次。利用相同方法得到“药物-疾病”以及“药物-基因/蛋白质”的共现秩数矩阵。多维标度分析(MDS)是一种对高维数据进行降维处理将其转化为低维数据,并仍保留数据之间相互关系的一种分析方法[10]。上述的秩次矩阵可表现为如下形式:

欧式距离的计算公式为:

计算各样本间的距离,将秩次矩阵转变为距离矩阵:

根据样品间的距离可以获得样品在空间中的相对位置关系,可以将这n个样本映射到某一p维空间中,从而尽可能保留样本间的相似性。当p=2或p=3时,可以将样本间的关系通过可视化展示[11]。若两者在文本中共现的频次越高,其共现的秩数越低,在可视化后空间上的距离也就越近。利用该方法绘制药物-物质/疾病/基因关联图谱。

2 结果与分析

2.1 药物-年度趋势分析

对检索结果进行清洗统计后得到上市药物共50种,相关专利共8 474项,相关论文共67 841篇。图1是论文累积量的年度变化曲线,图2是专利累积量的年度变化曲线,图3是药物上市累积量的年度变化曲线。上市药物数量在1994年达到总量的一半,而论文数量和专利数量则分别在1992年左右和2005年达到总量的一半。由图1和图3可知,上市药物数量与相关论文量增长曲线呈平稳的S型增长,在1992年左右达到增长速率的峰值,随后逐年放缓。图2中,相关专利量由于专利审查的周期限制,除了近两年专利数量统计尚不完全和曲线几近持平外,相关专利的数量一直呈较快的J型增长。

图1 论文累积量年度变化曲线

图2 专利累积量年度变化曲线

图3 上市药品累积量年度变化曲线

2.2 药物-研发阶段跨度分析

按照时间跨度,论文及专利的分布情况如图4所示。

论文中颜色较深的条带分布在-4至18之间,即药物上市前4年到药物上市后8年,峰值出现在12处,即药物上市第12年;专利中颜色较深的条带集中于-2至23,即药物上市前2年到药物上市后23年,峰值出现在8处,即药物上市第8年。

图4 专利和论文的整体时间跨度分布

在论文的阶段/时间跨度分布图(图5)中可以明显地观察到,在论文集中的两个大类——“心脏和心血管系统”和“药理学和药剂学”中均可以看到两个明显的波峰,第一个峰值出现在药物上市前25年左右,第二个峰值持续时间较长,从上市前4年持续到上市后15年。

另外,在上市前5年间“毒物学”研究出现了小幅增长,而“化学,分析”在药物上市20年后才开始出现明显增长。

在专利的阶段/时间跨度分布图(图6)中,核心专利“化合物”的明显增幅出现在药物上市前3年左右,“药品衍生物”则在药物上市后才开始增长,“制备方法”类集中了最多数量的专利,而“制剂”的研究一直都是专利申请的热点。

图5 不同学科论文的时间跨度分布

图6 不同类型专利的时间跨度分布

2.3 药物-物质-疾病-基因关联分析

为了能够更加精准地发现上市药物与物质、疾病、基因之间的潜在关系,将抗心绞痛上市药物中新的分子实体(共28种)按照作用通路划分为钙通道调节剂(14种)和G蛋白偶联受体调节剂(4种)两个类别,将不能分为这两类的药物归入其他。

2.3.1 钙通道调节剂

在钙通道调节剂与物质的共现图谱(图7)中,作用于钙通道的抗心绞痛药物在二维的平面空间内拥成一簇。其中位于药物中心位置的是Calcium(钙),Nicardipine(盐酸尼卡地平)、Diltiazem(盐酸地尔硫卓)、Nisoldipine(尼索地平)、Amlodipine(苯磺酸氨氯地平)、尼群地平(Nitrendipine)等点紧邻中心分布,Acetylcholine(氯化乙酰胆碱)、Norepinephrine(去甲肾上腺素)、“1,2-Dihydropyridine”(1,2-二氢吡啶)、“1,4-Dihydropyridine”(1,4-二氢吡啶)等点则散落在四周。图8是药物与疾病的共现图。从图8可以看出,Hypertension(高血压)、Hypotension(低血压)、Diabetes Mellitus(糖尿病)、Tachycardia(心动过速)、Ischemia(缺血性疾病)等疾病与药物混杂分布,Heart Failure(心力衰竭)、Myocardial Infarction(心肌梗死)、Kidney Diseases(肾脏疾病)、Stroke(脑卒中)等疾病环绕分布在其周围,Headache(头痛)、Hypertrophy、Left Ventricular(左心室肥厚)、Coronary Artery Disease(冠状动脉疾病)、Arrhythmias、Cardiac(心律失常)、Atherosclerosis(动脉粥样硬化)等分布在最外周。在钙通道调节剂与基因/蛋白质的共现图谱(图9)中,Renin(血管紧张肽原酶)、Calcium voltage-gated channel subunit alpha1 F(电压依赖性钙通道α1F)和insulin(胰岛素)是与作用于钙通道的抗心绞痛药物关联最近的3种蛋白。

2.3.2 G蛋白偶联受体调节剂

作用于G蛋白偶联受体的抗心绞痛药物因数量较少,聚类效果不及钙通道调节药物明显,但仍能看出相聚成群的趋势。图10中Propranolol(盐酸普萘洛尔)、Norepinephrine(去甲肾上腺素)等位于药物较近区域,图11中Heart Failure(心力衰竭)、Arrhythmias、Cardiac(心律失常)和Hypertension(高血压)位于药物中心区内,图12中Renin(血管紧张肽原酶)和Calcium voltage-gated channel subunit alpha1 F(电压依赖性钙通道α1F)依然是与抗心绞痛药物最相关的蛋白。

2.3.3 其他

与前两类药物根据共现关系自动构成药物集落相比,其他作用通路的药物在可视化效果图中的分布相对松散,与之共现的物质、疾病、基因/蛋白质散落在平面内,聚类趋势不明显(图13至图15)。

图7 钙通道调节剂与物质的共现图

图8 钙通道调节剂与疾病的共现图

图9 钙通道调节剂与基因/蛋白质的共现图

图10 G蛋白偶联受体调节剂与物质的共现图

图11G蛋白偶联受体调节剂与疾病的共现图

图12 G蛋白偶联受体调节剂与基因/蛋白质的共现图

图13 其他类药物与物质的共现图

图14 其他类药物与疾病的共现图

图15 其他类药物与基因/蛋白质的共现图

3 讨论及结论

3.1 抗心绞痛药物研究的发展态势

药物上市数量的变化可以体现出医药研发过程中重心的转变[12],论文发表周期短则能够快速反映学科的发展过程。通过比较药物数量与论文数量、专利数量的增长曲线,可以看出论文数量的增长模式与药物数量的增长模式更为接近。与此同时,通过对抗心绞痛药物的初始研发机构(Originator)进行统计发现,绝大多数药物均由企业开发,企业在研发过程中更倾向于通过申请专利来声明知识的归属,所以专利数量的改变可用于预测药物未来的上市情况。J型曲线也叫“快速增长型曲线”。专利数量的大幅度增长必然会带动上市药物数量的增长,让我们看到了抗心绞痛领域药物的发展潜力。

3.2 抗心绞痛药物研究的知识来源

在不同的研发阶段,论文与专利对于上市药物的知识贡献度是不同的,贡献的知识内容也有一定的差别。此前有学者研究发现,实现从基础研究到应用研究的转化平均需要12年[13]。我们可以利用不同学科论文的阶段分布图定位药物上市前12年左右(即分布图的时间轴定位在-12左右的位置时)和哪些类型的基础研究能为药物的上市提供知识基础。我们发现,除“心脏和心血管系统”与“药理学和药剂学”外,“生物化学与分子生物学”“生理学”“化学,药物”“化学,分析”“毒物学”等基础学科也可为药物的研发提供知识基础;专利类型的阶段分布情况可以提示我们在不同的时间阶段应如何制定专利保护策略、如何进行药物非核心专利的研究与申请,才能更好地保护药物的知识产权。

3.3 抗心绞痛药物相关的知识发现

分析药物-物质-疾病-基因关联的核心是抽取药物与物质、疾病、基因/蛋白质之间的共现关系。我们认为,共现频次越高,两者之间的相关性就越大,因此可帮助我们发现潜在的治疗心绞痛的药物和药物新适应症及候选基因或靶点。在“药物-物质”共现图谱中,治疗心绞痛药物常与治疗冠心病、高血压、充血性心力衰竭等疾病的尼群地平,以及治疗原发性高血压、脑动脉硬化症的药物尼卡地平等共现,说明这些药物具有相似的药理作用,可以揭示尼群地平、尼卡地平等在治疗心绞痛中可能具有的潜在作用。在药物-疾病共现图谱中,治疗心绞痛药物除与如心肌梗死、心力衰竭等其他心脏疾病共现外,也与高血压、糖尿病等疾病多次共现,应考虑已上市药物的其他适应症及多疾病患者的联合用药问题。在药物-基因/蛋白质共现图谱中,血管紧张肽原酶和电压依赖性钙通道α1F可能是与疾病最相关的蛋白。此外,本文在制作共现矩阵时仍保留抗心绞痛药物-其他抗心绞痛药物、抗心绞痛药物-心绞痛疾病、钙通道调节类药物-钙元素之间的共现关系,通过观察已有明确联系的药品-物质对、药品-疾病对是否在共现图谱中位于较近且居中的位置判断此方法是否可行。由图7至图15可知,已知的药品-物质对、药品-疾病对均在较为靠近的核心区域,以上理论得到了验证。对于经过多维标度分析后可视化的图形来说,越接近核心区域越有可能寻找到潜在的治疗心绞痛的药物和上市药物更多的适应症,以及发现药物的作用靶标。

本文的理论基础是认为专利和论文中能够记录上市药物相关的绝大多数信息,但上市药物与产业联系紧密,承载知识的载体不局限于专利和论文,所以很难单从专利和论文的角度全面揭示行业。因此,在今后的研究中应选取多种类型的数据源,从而更为全面地为行业进行画像。

4 结语

随着科学研究的不断深入,对药物相关知识发现的需求不断增加,情报学方法和技术的发展也面临着巨大的机遇与挑战,以往的回溯性研究不能满足科研工作者的情报需求。本文利用“药物-论文-专利”的联系以及文本挖掘方法,对上市抗心绞痛药物的潜在信息进行探究。下一步的工作是要试图发现“科学-技术-产品”间的转化模式,为科研布局及政策制定提供决策支持服务,并通过服务成果缩短转化路径和转化时长,促进科学的发展。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!