当前位置:首页 期刊杂志

电脑在文科的应用

时间:2024-05-04

钱 锋

一九六四年九月,由执世界计算机牛耳的美国IBM公司资助,在该公司新设立的约克敦高地研究机构中召开了一次学术会议。这个会议的主题新颖而又大胆:要公开确认计算机这种先进工具在人文科学中占有一席之地。这在当时是一件吃力不讨好的事:计算机刚问世十余年,机种和类型还很少,系列机IBM/360刚刚脱离实验室的怀抱投入生产线,小型计算机还没有为人知晓,要再过十年,世界上方才透出关于微型计算机的信息。这次会议的名称也是空前绝后:“IBM文学数据处理会议”(IBMLiteravyDataProcessingCon-ference)。这时的人们,还处在发现计算机居然有着不可穷尽作用的巨大震惊之中;计算机,不论是在公开场合或是在日常交谈中,还在被称为“巨脑”(giantbrain)。这里的giant可说是一语双关:一则以体形的巨,动辄就占了一间屋子;一则以能力的巨。这不用多说

在这次会议上,与会者怀着一种战战兢兢而又不无骄傲之感的心情,报告了他们把计算机用之于人文科学的工作。大部分研究工作集中在利用计算机编纂“勘靠灯”(Concordance)。这种东西即是吕叔湘先生所说的“‘索引,过去又叫‘通检”,我们现在也叫逐词索引。这种计算机索引的作用,也如吕叔湘先生所说,“可以在计算机上对语含工作者提出的任意字、词、词组、短语进行检索,打印含有这些字、词、词组、短语的全句原文。”吕叔湘先生称这种工作为“语含研究手段现代化”,“可以免除一大部分用手工搜集语言资料的劳动。对于研究文学的人,这样一套索引,也将是很有用的”。计算机一进入文学研究的“大观园”,所关注的就是这件研究手段现代化的大事。这件检索钩沉的事,以前一直是用手工做的,中国学者关在书斋里皓首穷经,外国学者也是如此,下的都是“笨功夫”,而且都颇以此为荣、为幸,在其中发现广大的天地、无穷的乐趣。这种乐趣可能就是学者们经年累月、孜孜不倦工作的一种动力。可以举一个例子。姚纳·杨(IoneDodsonYoung)用手工为英国诗人拜伦编了逐词索引,整整用去了他二十五年的宝贵年华。难怪这套洋洋四卷的书在一九六五年正式出版时,他不无惋惜地说,这恐怕是手编逐词索引的绝响了。我们这里还得要举一个计算机编辑的例子。一九七五年有人进行了一次演示,一台IBM公司的360/65计算机,打印美国现代小说家菲茨杰拉德的名著《伟人盖茨比》(TheGreatGatsby)的全部逐词索引,仅用了六分钟!有人用计算机编制俄罗斯诗人奥西普·曼捷尔斯坦诗集的逐词索引,加上事前编辑、编制和调试计算机程序的时间,也只用了二千个人时,即相当一年的时间。无怪乎书斋中的学者感到世风的日新月异,计算机取代手工的不可逆转。但是,他们又感慨系之地说,手工编纂的许多乐趣,都将湮灭在没有头脑的机器中去了。

可以说,一九六四年IBM文学数据处理会议所昭示于世人的,正是这么一种势头。

随着计算机在文科中应用的扩展,逐词索引的概念也在扩大和进步。一九八五年在爱荷华州的格林尼尔和犹他州的普拉沃召开的两次国际会议的两个报告中,介绍了作为文学研究者智能工具的ETRA系统,提出了随机逐句索引(randomconcodance)的新概念。原来所有的书籍都是线性安排(linearorganization),这种组织当然是小说之为小说的唯一形式。但是,这对于研究者却很不方便,线性次序把许多有用信息都掩盖起来了。逐词索引打破了原先的线性次序,运用信息的观点,把信息的标引——词和短语——取出来,并把每一信息标引下与之有关的所有有用信息——包含这个词或短语的所有句子,一一列于这个信息标引之后,这样,按词或短语检索与之有关的信息就方便了。但是,逐词索引在打破原来的线性安排的同时,又引入了一种新的线性安排,这就是所有的词或短语又形成了一种线性次序,要检索到所需信息的词或短语还得费一番折腾,也就是需要两次检索。随机索引把这种线性也打破了。只要把需要其信息的词或短语输入,计算机就能在所存贮的有关文学作品中自动检索,从而把包含这个词或短语的句子打印出来。计算机编纂文学作品,甚至作家全集的逐词索引,其方法是把这些作品用打键的方法输送入计算机。这种以计算机存贮介质形式(media)出现的某一文学作品,我们称之为文本库(textbase)。用一套编制逐词索引的软件对这种文本库进行加工,就能输出自A到ZZZ(英文的最后一个词,表示打鼾声)的逐词索引。

IBM文学数据处理会议前后,计算机应用于人文科学的另一个大宗是计算机用于辞典编纂。用计算机来编索引和编辞典,这两种技术既有差别又有连系。编索引时只需要输入(key-in)相应的文学作品。编辞典涉及全民语含,所以文本库里应收入反映全民语含的语含素材;而且,关于某一词或是短语所出现场合的句子,也应该是有关这个词的全面的解释。自那时以来,已经使用计算机编辞典的语种,包括英语、意大利语、荷兰语,还包括古英语、中世英语、古苏格兰语、古西班牙语,甚至还有印第安语和藏语。最近,《牛津英语辞典》从英国政府和IBM公司双方得到资助,将用计算机进行重编。计划最大的是《法语语言宝库辞典》(TrésordelaLangueFrancaise)。为了用计算机编纂,法国政府投资在南希大学建了一幢高楼。计划中要把一千六百部完整的文学作品送入计算机,以便反映一七八九年法国大革命以来书面法语变化的全景和现状。这数以千计的作品将首先用计算机编成逐词索引。

计算机应用于文科初见成效,政府和工业界开始投资,反过来又刺激了研究人员荟萃之地——大学。有条件的大学纷纷设立了自己的计算机人文科学应用课题,他们既致力于某一专门论题的研究,又对这整个新兴领域的繁荣作出贡献。举一些例子就可以看出,这种情况如何饶有兴味,又洋洋大观:法国卢万大学研究宗教文献,挪威卑尔根大学编制易卜生等挪威作家的逐词索引,波恩大学编制康德的逐词索引,这些大学都为此成立了专门的研究室或中心。这些中心都或紧或松地与大学新近建立的计算语言学(computationaltinguisties)系科联系着。这是因为它们都须从计算语含学这门新兴的高等学科中汲取指导思想和具体方法。另外,更多的大学虽没有建立中心或研究所之类的专门机构,但往往是在一个学术上很活跃的教授领衔之下,组织课题小组研究。加州大学欧万分校(UniversityofCalifornia,Irvine)的布鲁纳教授(Prof.T.F.Bruner)领导下的《希腊文荟》(The-saurusLingualGraecae),就是一个很好的例子。《文荟》计划把自荷马开始到公元二○○年的所有现存希腊文著作都存入计算机中去。

这便又引出了计算机用于文科的另一个有趣课题:机器可读文本(machine-readabletext)的建立。实际上,上面所说的逐词索引、辞典等的编纂,都少不了要把相应的文字材料送入计算机,以磁性介质的形式存贮起来,这便是同一语言文字材料的机器可读文本了。不但索引和辞典的编纂得用到机器文本;一旦有了它,也就可以利用其他专用的软件对这些语含材料作各种分析处理。所以,机器文本的创建,虽说只是介质的转换,其意义却远大于编辑出版一套古籍,而简直是象大司务把菜都配好了,可以使您根据众口的不同要求来烹调佳肴。正因为如此,机器文本本身也就成了一种研究事业。上面所谈到的《法语语言宝库辞典》、《希腊文荟》等,在一定意义上就是机器文本的问题。

计算机文科应用的另一个大有前途的领域,是在高等教育中的应用。但是,正象计算机在其他文科学科中的应用一样,这在目前还没有统一的理论,系统的方法;使用计算机来教大学的文科课程,也是见仁见智,各有千秋(Adhoc)。按作者的看法,统一的指导理论和系统的基本方法是绝对必要的,而且,首先得对这门科学有一个基本的界说,作者拟把计算机在文科教学(泛言之,理、工科教学也大致适用)的应用分成以学生为对象的(studentoriented)和以教师为对象的(teacheroriented)两类。目前,国际上这方面的研究绝大部分集中在前者,而且多半又倾注于语言教学。例如,让计算机给学生出各种操练题,学生就着计算机回答,然后计算机给出评分,等等。用计算机来代替教师,有着种种前所未有的好处,例如因材施教,学生可以根据自己的水平自定步调,计算机不会对后进学生“假以颜色”等等。但是,要让计算机来代替教师的课堂教学活动,目前在模拟教师的智能活动方面还受着许多限制,同时,也还受着教育界某种感情上的排斥。以教师为对象的各项研究,其情况就不同了,但却还没有象前者那样普及,特别没有作为一个独立的研究方面提出。前面所提到的ETRA系统,就是把一个语言教师(包括文学语言研究者)的某些智力劳动加以形式化,抽象出算法,并用计算机程序加以实现。在建立了机器文本的条件下,ETRA可以帮助语言教师分析课文、选取例句和搭配关系,作统计等等,从而减轻了教师的手工劳动。

计算机在文科的应用应当说仅仅是开始,发展下去,前途无穷。中国的文科学者,万勿忽视这一工具!

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!