时间:2024-07-06
俞 平刘 妍汪莉莉简 卡徐冬雁
(1.遵义医学院图书馆,贵州 遵义 563003;2.遵义医学院珠海校区图书馆,广东 珠海 519041)
俞 平 女,研究馆员。研究方向:查新检索、参考咨询等。
查新是以查证课题的“新颖性”为宗旨,新颖性“是指在查新委托日以前查新项目的科学技术内容部分或者全部没有在国内外出版物上公开发表过”[1]。查新工作对课题的检索范围要求比较高,因此,丰富的信息资源是开展查新工作的重要保障。教育部科技发展中心在《关于规范教育部科技查新站查新报告撰写的通知》中较详尽地规范了查新的文献检索范围,指出“网络数据库资源十分丰富的查新机构,可以在国际联机检索引库搜索的基础上,基于自有的网络数据库开展查新”、“如果必查数据库或专业数据库欠缺,必须采用国际联机进行补充检索”[2]。Dialog国际联机系统中600多个数据库作为查新资源的保障,为查新质量提供了足够的支撑。
Dialog是迄今最大的国际联机检索系统,拥有600多个覆盖各行业的数据库,其内容几乎涉及了全部学科范围,包括综合性科学、自然科学、应用科学和工艺学、社会科学和人文科学、时事报道和商业经济等[3]。Dialog系统数据更新及时,收录的文献涵盖年限较长,并且其检索功能非常强大,操作简单,可同时检索多个数据库,系统能够自动去除重复文献。利用Dialog系统,文献情报机构可进行项目查新、文献调研、课题立项、申报专利、新产品开发等信息的检索。
Dialog根据学科或主题将数据库划分至不同的分组,共设置了28个大组(supercategory),其中与医学和制药相对应的是Allmedph。Allmedph共有192个数据库,包括许多大型常用医药卫生数据库,如MEDLINE(美国医学索引)、EMBASE(荷兰医学文摘)、BIOSISPreview(生命科学文摘)、SCI(科学引文索引)、INSPEC(科学文摘数据库)、CA(化学文摘)、TOXFILE(毒物学文摘)等,另外,还有一些医药卫生方面的期刊全文数据库以及德温特专利数据库等,保证了医学查新检索范围的广泛性。利用Dialog进行医学查新时,用户可先在Pubmed中检索相关文献,大致了解所检索的课题在国外研究概况,并根据检索结果,进一步确定检索词,调整检索策略[4];然后用Dialog系统所支持的截词符、位置算符以及逻辑算符编写好检索式,再进入Dialog系统检索。在Dialog系统中,检索包括两个阶段:411库的预检索和实体库的检索。笔者以课题“外周血SATB1蛋白表达与乳腺癌转移关系的研究”为例,介绍dialog系统的检索过程。
①根据Pubmed检索情况确定检索词,SATB1即核基质结合区结合蛋白质1(special AT rich sequence binding protein-1),因此构建dialog检索式为:(SATB1 OR special(1w)rich()sequence()binding()protein)AND(cancer??OR tumor??OR sarcoma??OR carcinoma??OR neoplasm??)AND(Breast??ORmammary)。
②进入411库扫描(预检索)
411库是dialog数据库的总索引,可进行Dialog全库扫描,能够了解课题相关文献在各个数据库的命中情况,从而调整检索策略,选择与课题最相关的数据库[3]。由于大多数高校查新站都是411包库用户,因此可以充分利用411库的这项功能来验证、修正检索策略,选择数据库范围。具体步骤为:
B 411
SFALLMEDPH
S(SATB1OR special(1w)rich()sequence()binding()protein)AND(cancer??OR tumor??OR sarcoma??OR carcinoma??OR neoplasm??)AND(Breast??ORmammary)
运行检索后,可显示各数据库命中记录数(见图1)。根据显示的命中记录数,可以判断整个检索策略是否需要调整,如果文献命中太多或太少则需要调整检索式,直到取得满意的结果。结合课题研究学科,通过比较分析,选择适当的数据库就可进入实体库的检索。对于医学查新,选择数据库时应注意商业数据库可不选,440号文档是目录库,也不要选择。
图1
③实体库检索。选择好数据库后,可点击“Begin Database”开库,也可手工输入检索指令“B数据库号”进行开库。实体库检索步骤为:
B 155,5,34,45,71,73,144,149,156,159,172
S(SATB1 OR special(1w)rich()sequence()binding()protein)AND(cancer??OR tumor??OR sarcoma??OR carcinoma??OR neoplasm??)AND(Breast??ORmammary)
Dialog检索后命中127篇文献,检索结果生成一个集合S1(图 2):
图2
用“RD”去重指令对S1去除重复文献,剩余44篇文献,生成结果S2集合(图3):
图3
根据检索需要用“T”指令输出结果,输出格式一般采用6,k格式:T s2/6,k/all(按6,k格式输出s2集合的所有命中记录)。最后输入logoff,结束检索。
制定合理的检索策略并在检索过程中加以优化,包括检索词的选择、检索词之间的位置关系以及检索概念的组配等,都将对检索结果带来很大的影响。如果检索策略失误,不但会漏检相关的文献资料,而且在输出结果时增加不必要的费用。
3.1.1 选择检索词
①截词技术
截词技术是英文检索中常用的一种检索技术。西语中有很多词干相同的词,其基本含义通常是一致的,如某一概念的名词、动词、形容词、分词、单数、复数、英美拼法等形式[5]。检索时,就得将这些不同形式的词一一输入,这时可使用Dialog的截词功能。Dialog系统所有平台的截词符都是问号“?”,通过“?”的位置和个数的变化进行截词,代表可能出现的英文单词的变化。一个“?”放在词尾表示无限截词,代表任意长度的字符数或没有字符,放在词中间则代表一个字符数;“??”(问号空格问号)放在词尾代表0至1个字符数;N个“?”(n>=2的自然数)放在词尾代表0至N个字符数。Dialog系统尚不具备前截词功能。
例如:immun?可以检索出以immun为词干的所有记录:immun、immune、immunity、immunology、immunization、immu nochemistry…
wom?n可检出 woman、women…
cell??可检出 cell、cells、cello、cella…
process??可检出 process、processes、processor…
使用截词技术时,无限截词要慎用,尤其是词根部分不能截得太短,否则可能检出很多无关文献,既影响查准率又增加了不必要的检索费用。
②利用扩词指令E查找检索词的拼写,帮助选择检索词
对那些把握不大的检索词最好先扩词,弄清文档的标引方法。键入扩词指令E,系统便列出按字顺排列的索引,每个词前面的数字即是该词在这个文档中的命中数,此外还给出与该词相关词的个数[6]。如:检索词“调节性T细胞”(Regulatory T cell),可用扩词指令E查找它的拼写(411包库用户可通过411库查找,节省费用),对于医学查新,主要查看检索词在155、73两个数据库的标引即可:
B 411
sf155,73
e Regulatory T cell
运行检索后,结果如图4所示。
图4
分析Regulatory T cell的命中情况及与其相关的词,可以看出这个词实际上有几种拼写:Regulatory T cell、Regulatory T cells、Regulatory T Lymphocyte、Regulatory T Lymphocytes、Regulatory T-Lymphocytes,确定检索词时几种形式都应考虑。
3.1.2 确定检索词的位置关系
选定检索词后,如何确定检索词的相对位置关系十分重要,Dialog系统可以通过位置算符来限定检索词之间的位置关系,以提高检索的准确性。Dialog位置算符有:(#W)、(#N)、(S),#为自然数,表示两词之间最多可间隔的单词数,(#W)表示前后单词顺序不变,(#N)则表示前后两个词的位置可以互换。(W)可简写为(),最常用来代替短语之间的空格。(S)表示前后两个词必须出现在同一个段落或同一子字段中,词序可变。
当检索词为短语时,或两个检索词之间有Dialog系统规定的禁用词(an、and、by、for、from、of、the、to、with),或出现“-”、“+”、“.”、“/”等特殊符号时,如用截词符“?”替换,则检索不到相关文献,应该用位置算符替换。
例如:上例中检索词Regulatory T cell的几种拼写形式如都用“OR”连接,检索式太长,利用位置算符可以表达为:Regulatory()T()cell??orRegulatory()T()Lymphocyte??,进而简化为:Regulatory()T()(cell??or Lymphocyte??)。
再如:tumornecrosis factor:tumor()necrosis()factor
Cancer of Endometrium:Cancer(1W)Endometrium
NA(+/)K(+)ATPASE:Na()K()ATPase
IFN-β :IFN()beta
3.1.3 调整检索表达式
当确定了检索词以及检索词间的位置关系并将检索词用逻辑算符连接起来,就构成了检索式。最初拟定的检索式不可能一步到位,在实际检索中往往会遇到检出文献太多或太少的情况,这就需要不断调整检索式。由于Dialog系统除了可以用逻辑算符and、or、not进行逻辑运算还可以通过位置算符(#W)、(#N)、(S)来限定检索词之间的位置关系,且位置算符的优先顺序要大于逻辑算符,所以在调整检索式时可以通过逻辑算符和位置算符的灵活运用,来控制检索结果,达到精确检索的目的。一般来说,如果使用(#N)检索到的文献量太少,就可以使用(S)算符放宽限制,提高查全率;而如果用AND算符进行检索导致文献量过大时,误检率也随之较大,此时也可使用(S)算符缩小检索范围,提高查准率。因此,Dialog系统比那些只具备“与”、“或”、“非”等布尔逻辑算符的检索系统具有更强的检索功能。
3.2.1 充分做好联机检索前的准备工作
Dialog的服务是收费服务,其费用通常由3部分组成:机时费(或联机费,16美元/小时)+流量费(或检索费、平台费,每个数据库的费用标准不同)+输出费(不同的输出格式收费标准不同)。因此,利用Dialog进行联机检索前必须预先做好充分的准备工作,查新员要全面了解查新项目的内容,根据查新项目的科学技术要点及查新要求,事先编制好Dialog检索式;要注意不能盲目联机,避免联机时间过长或命中大量错误结果而重复上机,增加联机费用[7]。
3.2.2 利用数据库总索引检索界面DataBases进行预检索
Dialog系统检索一般包括两个阶段:411库的预检索和实体库的检索。但Dialog对411文档扫描是收费的,对于411包库用户来说,可以充分利用411扫描来修改检索策略,而非411包库用户如果用411扫描来调整检索策略,则需要耗费较多的联机费用,这时可利用Dialog系统免费开放的数据库总索引检索界面DataBases进行预检索。DataBases与411文档的功能相同,可以用某一检索式在Dialog所有或部分数据库中进行预扫,从而知道哪些库命中了多少篇文献,且不收任何费用。具体步骤为:登陆dialogweb检索界面,选择Go to command search按钮,再选择continue按钮,点击database按钮进入相关界面后,选择Medicineand Pharmaceuticals就可以进行检索了,根据扫描结果来调整、确定检索式,选择需要检索的实体库,这样既提高了文献检索的查准率和查全率又节省了联机检索费用。
3.2.3 尽量避免使用高频词检索
Dialog系统中有9个禁用词是不能用来做检索词的,Dialog有600多个数据库文档,无论在哪个文档中,都有一些词频较高的词,这些词虽不是禁用词,但如果用它们做检索词,则占用机时较长并会增加机时费,因此检索时应慎用[7]。如:短语special AT rich sequencebinding protein中“AT”是高频词,直接用special()AT()rich()sequence()binding()protein检索,花费时间会很长,如果利用位置算符改为special(1w)rich()sequence()binding()protein,则用时能减少很多。
3.2.4 充分利用免费资源和本单位拥有的数据库资源
在网上有大量的免费资源可以为用户利用,如pubmed、欧洲专利、美国专利等,进行Dialog实体库检索时,一般可以不选择专利数据库(最多只选Derwent),以节约联机费用。对本单位已有的数据库记录,则可以不用输出结果,只选择输出本单位没有的数据库记录,这样可以大大降低输出费用。由于Dialog系统在去重时是由后向前去重的,即保留先开库的数据库记录,而开库顺序靠后的数据库的相同记录则会去掉,因此开实体库时,本单位的数据库、收费较便宜的数据库要尽量排到前面先开库,便于去重结果优先保留在这些数据库中,从而减少数据输出量。
如前所例举的“外周血SATB1蛋白表达与乳腺癌转移关系的研究”一例,用“RD”去重指令去除重复文献后,剩余44篇文献,如果直接用“T”指令输出44篇文献、输出费较高。可以先用“DS”指令展开去重后的检索结果在各实体数据库中的命中记录数(如图5所示),可以看出155号文档有22条记录,5号文档有8条记录(155号文档medline是pubmed数据库中的一部分,pubmed是网络免费资源;5号文档BP数据库是本馆已购买的),因此,只需要选择输出第31-44条记录(T s2/6,k/31-44)即可,节省了输出费。
3.2.5 输出格式的选择
Dialog系统中有多种输出格式,不同格式记录的信息输出量不同,因此费用也有所不同。在输出格式中,5、7、9格式可显示文摘或正文,费用最高;K格式显示检索词前后各15个单词的内容,费用很低;6格式为免费格式,只显示题目和出处,所以一般输出格式首选“6,k”格式,价格最为低廉。如上例中的Ts2/6,k/31-44。
此外,在输出时还应掌握一些技巧:如果检索式中使用的是(#N)或(S)算符,要将(#N)或(S)去掉换成AND算符,再与最后的检索结果集合号重新组配检索,目的是扩大所用的关键词在文章中出现的次数,这样在用“6,k”格式输出时,就可获得更多的信息量。
3.2.6 及时使用Logoffhold和Logoff命令
Logoffhold是暂时脱机命令,当输入Logoff hold命令后,系统中断与指定文档或数据库的连接,用户可以在30分钟内重新联机继续操作,系统仍将保存原来的检索过程并允许用户继续检索。在检索过程中,用户如果需要思考或暂时中断检索,要及时使用Logoffhold命令。Logoff是用户与Dialog系统脱机的命令,彻底退出检索过程,检索结束后要及时使用Logoff命令以中断与Dialog的连接,以免增加不必要的机时费。
总之,Dialog系统检索技巧还有很多,需要我们在工作中不断摸索和总结。在查新中,只要能够熟练掌握Dialog使用方法和技巧,就可以提高外文文献检索的查全率与查准率,对于外文资源相对缺乏的查新站来说,Dialog是开展查新工作、确保查新质量的重要保障。
[1] 科技查新规范[S].国科发计字[2000]544号.
[2]关于规范教育部科技查新站查新报告撰写的通知.教技发中心函[2009]105号.
[3] 张柏秋,王超.Dialog国际联机实用手册[M].北京:化学工业出版社,2008.
[4] 梁丽明.Dialog系统在医学科技查新中的应用[J].中国西部科技,2010(5):45-47.
[5] 俞平.信息检索中文献漏检误检因素的分析[J].情报科学,2011(8).
[6] 张义兰.DIALOG联机检索方法和技巧[J].现代情报,2005(4):137-138,141
[7] 赵霞,李广利.如何降低Dialog联机检索费用[J].情报杂志,2009(B06):197-198,152.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!