时间:2024-04-24
文/马建强
大数据时代下的历史研究
文/马建强
随着互联网、计算机技术的发展,大数据时代对历史研究的冲击在所难免,历史学也面临挑战与机遇并存的命运。当前内容庞大、功能多样的数据库与日俱增,历史研究所面对的数据环境越来越健全。面对这样的学术环境,一些学者提出了对历史学发展的思考,一些学者则凭借大数据时代的独特环境,开展了一些新的史学研究实践。大数据时代中的历史研究是一条正在探索的道路,计算历史学可能会成为历史研究发展的一个趋向。
面对大数据时代对史学的冲击,史学界已然进行了一些勇敢的建设与尝试。所谓的“建设”是以积极心态为营造更好的数据环境而进行的建设;所谓的“尝试”是在大数据时代的环境下进行史学研究的新尝试,主要是利用海量网络数据以及规模较大的“数据库”进行。
在数据环境的建设方面,台湾地区是先行者,最先开始探索以实现全文检索为目标的古籍数字化。早在1985年,台湾“中央研究院”历史语言研究所便启动了“汉籍电子文献资料库”的建设工作,内容包括“二十五史”“十三经”,以及“超过两千万字的台湾史料、一千万字的大正藏”、道藏、清代经世文编等大型类书、丛书,收入典籍达460多种,计4亿多字。1999年香港迪志文化出版公司出版“文渊阁四库全书”电子版,该数据库以超过7亿字的规模成为当时最大的数据库。进入21世纪,以全文检索为基础的数据库发展迅猛。台湾雕龙中国古籍全文检索数据库起始于2001年,在2013年时已声称收入古籍文献约20000多种,近25亿字,且以每年新增5000种文献10亿字的速度递增,数年后将成为全球第一的超大型中国古籍全文检索数据库。
大陆方面在数据环境建设的方面起步晚于港台,但是近年来成果显著。在古籍数字化方面成就最为突出的是北京爱如生公司。2001年该公司与北京大学刘俊文教授合作,研发制作“中国基本古籍库”,该库分4个子库、20个大类、100个细目,精选先秦至民国历代重要典籍,总计收书1万种,单库全文超过17亿字。目前爱如生公司已陆续推出包括中国近代报刊库、中国方志库、中国谱牒库、中国类书库等在内的大型数据库14个;包括四库系列、别集丛编系列、历代碑志系列、地方文献系列等在内的9个系列共82个专题数据库;包括明清实录、永乐大典、四部丛刊等在内的数字丛书库50个。另外还有“原文影像版数字原典”产品8个、“全文检索版拇指数据库”9类1000个产品。由北京时代瀚堂科技有限公司推出的《瀚堂典藏》,分为古籍数据库、近代报刊、民国文献大全三大主体部分。全库共包含有15000多种古籍,25000种民国报纸期刊,近4000万条记录,汉字总量超过40亿。近年来湖南青苹果数据中心有限公司提出创建“华文报刊文献数据库”计划,将从清朝嘉庆年间至今两百年的4000种报刊中挑选十分之一进行数字化,形成拥有4000亿汉字和4亿篇文章的海量历史文献库。
以上仅是能实现全文检索的大型综合数据库,除此以外,还有规模较小的全文数据库,如书同文古籍数据库、中华经典古籍库;或专题数据库,如中国金石总录数据库、东方杂志全文数据库;以及不能实现全文检索的大型数据库,如“大成故纸堆”系列数据库、晚清期刊全文数据库(1833-1910)、民国期刊全文数据库(1911-1949),中美百万册数字图书馆、国家图书馆民国图书、民国期刊数据库、读秀学术搜索,等等。在企业行为之外,史学界也对数据建设进行了探讨。2013年8月,教育部社会科学委员会历史学学部年度会议进行了“历史资料的整理、研究和数字化建设”的专题研讨。2010年以来国家社科基金支持的以数据库建设为核心的文史研究项目就有近70项,其中隶属于“中国历史”学科门类的重大项目有6项、重点项目1项、其他类别2项。
虽然目前数据建设还未臻成熟,但是史学界一方面已经认识到了建立相关专业数据库的重要性,同时也意识到数据库对推动研究的促进作用。伴随着日益丰富的数据环境,有一些史家利用数据库或创建数据库展开新的研究尝试,获得史学研究的新突破或开创了新领域,涌现出一些代表性的成果。
首先是台湾黄一农教授提出的“e考据”。自2005年以来,黄教授始终号召并实践着这种“大数据时代”的文史研究方式。在笔者对黄教授的访谈中,黄教授提出“e考据”并不仅仅是一种研究方法,并且还应该是一种融通数位与传统的研究态度。“e考据”是在e时代作考据,而并非只是用e的方法作考据。以“e考据”的学术方法和学术态度,2010年黄教授从原本非常熟悉的科学史、中西文明交流史跨入了被认为已遭遇研究困境的“红学”这个陌生的领地。5年后他出版了第一部红学专著《二重奏:红学与清史的对话》,这项研究为原本被认为已无多少新材料会出现的“红学”挖掘出一批过去不为人知的真实可靠的新史料,并填补诸多历史细节的隙缝,使得“红学”与“清史”之间的隐秘联系被彰显出来。这本著作既是“清史”与“红学”的“二重奏”,也是数位与传统的“二重奏”,是一部充分展现“e考据”典范的力作。
第二,在文学史研究领域,以武汉大学王兆鹏教授为代表的团队,自2005年开始尝试以数据计量分析唐诗名篇的影响力,并陆续扩充数据、完善统计方法。2011年出版了《唐诗排行榜》一书,对外公布了该团队研究成果的第四个版本。著名的文学史家傅璇琮先生评价该研究说:“这是一部既有传统深厚理论依据,又处处洋溢着现代学术新意的著作。这部著作从传播和接受的角度,依诗作影响深度和广度的标准对有唐三百年间的诗歌第一次进行了令人信服的排行,这种研究方式和文本呈现,无论在理论拓展还是实践创新方面,都具有开创性意义。”考察王兆鹏教授团队研究的内在理路,其学理依据仍然是文学史研究中的传播、接受理论,而在方法上则是利用了新时代才能实现的依托于数据库的计量分析。虽然该研究也遭到来自各方对于数据量、计算方式等的质疑,但是我们也应该看到,在文学史研究领域中,古典文学数字化与定量研究这个议题逐渐被更多的文学史研究者关注、认同并加入其中。
第三,以金观涛、刘青峰的《观念史研究》一书为代表的数据库关键词词频统计、语义分析与观念史研究。作者借助于内容达一亿两千万字的“中国近现代思想史专业数据库(1830-1930)”进行观念演变的探讨。作者认为这种研究得以展开的前提便是“历史文献向数码化的方向发展”,“原则上讲,研究者可以通过建立包括过去所有文献的专业数据库,采用数据挖掘方法,把表达某一观念所用过的一切关键词找出来,再通过核心关键词的意义统计分析来揭示观念的起源和演变”。这种数据库方法将观念史从思想史的附庸中解放出来,获得了独立的生命,也避免了过去以核心人物、经典为本为中心的思想史研究的局限。观念史的研究更能够体现思想发展的一般性特征,使思想史成为可以检验的。这种可检验性当然取决于数据库与计算机的数据挖掘能力。但是作者也承认,在整个研究过程中,数据库与计算机并非是唯一的全程参与者,“最重要的仍是研究者能否有效地利用挖掘出的大量数据,结合历史背景和文本结构分析,概括出某一时代某一普遍观念的理想类型,这依然是思想史研究的基本方法”。
第四,以李中清、梁晨为代表的研究团队以“量化史学”的方法和“群体史学”的眼光进行中国教育精英研究。2013年两人曾出版《无声的革命:北京大学、苏州大学学生社会来源研究(1949-2002)》一书。在2015年11月7日的北京论坛史学分论坛上,李中清教授以《中国教育精英四段论》为题首次向国内外听众介绍了这项研究,认为:“1865-1905年,即清政府废除科举之前,超过70%的教育精英是官员子弟,来自全国各地的‘绅士’阶层;1906-1952年,超过60%的教育精英是地方专业人士和商人子弟,尤其是江南和珠三角地区;1953-1993年,约超过40%的教育精英是来自全国的无产阶级工农子弟;1994-2014年,超过50%的教育精英来自各地区的有产家庭,与特定的重点高中。”该研究依托于李中清、康文林领衔的“基于个人层面的、从1760年至今中国教育精英社会与地区来源的数据库”。
第五,由哈佛大学燕京学社、台湾“中研院”史语所、北京大学中古史研究中心合作的“中国历史人物传记资料库”(China Biographical Database Project,简称CBDB)及基于此数据库的相关研究。截至2015年4月,该数据库共收录约360000人的传记资料,这些人物主要出自7-19世纪,目前数据库正在收录更多的明清两代人物传记资料。CBDB相较于一些企业开发的全文数据库来说,在数据结构上更加复杂、精细。研发者将历史事件转化为结构化数据,数据架构由人物、亲属、非亲属社会关系、社会区分、人仕途径、宦历、地址、著述等部分构成。通过这种结构化数据的提取、分析,研究者可以据此对历史人物进行群体研究,能够得到相关人物、事件的空间分布以及复杂的社会关系网络。相对于一般的数据库,该数据库可以实现更深层次的数据挖掘。同时也提供了一个计算机处理语义复杂的汉语文言文文本的示范,使得长时段的量化研究、空间分布研究可以实现,并从社会经济史领域扩展到政治史甚至是思想史领域的研究中,对于开启未来研究新方向很具启示意义。
第一,大数据时代带来历史学方法论预流与范式突破。1930年,现代著名史家陈寅恪在为陈垣《敦煌劫余录》所写的序中提出了一个著名的观点。他说:“一时代之学术,必有其新材料与新问题。取用此材料以研究问题,则为时代之新潮流。治学之士,得预此潮流者,谓之预流。其未得预者,谓之未入流。此古今学术史之通义,非彼闭门造车之徒,所能同喻者也。”陈寅恪从新的学术材料的发掘以及由此产生的新问题来前瞻学术的发展趋向,将进入这个时代新潮流的学术称之为“预流”。伴随着计算机、互联网技术的发展,大量的数据库层出不穷,历史存留的文献也正在被夜以继日地数字化,我们明显感受到了未来文献载体数字化的这种强劲趋势。大数据时代伴随着新的文献载体,史学研究的新方法论也正在形成。借用陈寅恪的“预流”观,我们发现,大数据时代下史学方法论的新潮流也正在成型,今天文史学界正经历一场由技术革新带来的方法论预流。
1962年,美国科学哲学家托马斯·库恩在《科学革命的结构》一书中系统提出范式理论。范式通常是一套学术共同体共同遵守的研究体系,它是当时一切研究的显著模式并为后来研究发展提供空间。当范式发生突破,便出现科学革命。借库恩的“范式理论”来理解历史学的学科前瞻,可以认为大数据时代利用计算机、互联网以及大型数据库来获取史料、挖掘分析史料信息的一套思维和方法也将成为史学研究的一种新范式。这种范式的形成将会带来全新的学术问题、学术理念、学术思维、学术视野以及学术方法、学术形态。从一定程度上说,大数据时代正是历史学范式突破的一个契机。
第二,计算历史学可能成为大数据时代史学的新趋向。在社会学领域,罗玮、罗教讲的《新计算社会学:大数据时代的社会学研究》一文将新计算社会学(new computational sociology)这一概念介绍给了中国学者,产生了广泛的学术影响。作者认为:“新计算社会学是当代社会学界借助计算机、互联网与人工智能技术等现代科技手段,利用大数据、新方法来获取数据与分析数据,从而研究与解释社会的一种新的范式或思维方式。”
笔者认为,“计算历史学”应该与“新计算社会学”相似,可能成为超越“计量史学”的大数据时代下的史学发展新趋向。“计算历史学”所能够实现的前提是计算机科学、互联网、大数据以及人工智能技术等在历史学研究方面的有效利用。史学界对于“计算历史学”的认识与建设也会伴随着大数据时代下相关技术的进步、数据的完善、研究的推进而不断深化。“计算”最终将远远超越“统计”“计量”,体现出人类借助于技术而实现的对历史文本、信息、数据更强大的挖掘、分析能力,弥补人脑在面对庞大信息时搜集、分析上的自然局限。正如上文所述,当前借助于“大数据”的一些历史研究新尝试所示,通过丰富的互联网资源,建设庞大、精准甚至结构化的数据库,能让历史研究者为进入研究困境的学科开创新局,能处理过去无法处理的学术议题,能获得过去人类自身认识局限所不能认识到的问题,也能启发研究者开拓更多的新研究空间。
第三,研究者的主体地位与温故知新的学术态度仍然重要。中国传统文史学界将“博雅”视为一个崇高理想,“博雅”实际体现的是人对史料的吸收记忆范围之广,运用处理能力之强。钱钟书以《管锥编》《谈艺录》两部经典著述成为20世纪文史学界“博雅”的典范。在今天有人质疑钱钟书的价值,认为其无非是一个“电脑数据库”。不过吊诡的是,因“博雅”而被称为“电脑数据库”的钱钟书在1984年便开始倡导将计算机技术引入古典文献的搜集、疏证和整理中来,并且规划指导了“中国古典数字工程”。钱钟书非常注重计算机技术在文史研究中的运用,同时也认为:“实践证明,能帮助人的计算机需要人的更多的帮助。”作为一个具有深厚文史积淀的前辈学人,钱钟书超前又辩证地提出了对未来文史领域中人与计算机技术之间关系的思考。
“计算历史学”作为大数据时代中历史研究的思维和范式,研究者在探索的过程中既要注重开创也要注重传承,应该有“温故知新”的学术态度。所谓的“故”既包含传统研究的学术方法和学术积累,也包括大数据时代下陆续开展的种种史学研究的新尝试所积累的经验与教训。所谓的“新”则是不断发展的计算机技术、互联网技术、人工智能技术,以及与日俱增并不断系统、完善、精确的数据环境,以及在此基础上的新问题、新思维、新视野,它是永远面向未来开放发展的。在充分温故的前提之下,不断地知新,不断地积累经验、教训进行再创造,使“故”与“新”之间保持一种健康有序的互动、动态和谐的传承。
大数据时代的历史研究没有特别的捷径,需要史学工作者的勤勉与努力,严谨厚重仍然是历史学的特点。研究者在面对新的学术环境时必须有方法论更新的自觉和勇气,也必须有全新的历史思维和问题意识,大数据时代既带来了研究的便利,也给研究者施加了新的研究压力。计算机能够帮助人,但同时它帮助人的能力更需要通过人的帮助来不断提高。面对新环境更好地发挥人脑的主动性、创造性,引导计算机、互联网、人工智能技术配合历史研究发展,积极地面对并建设历史研究所需要的数据环境,更是这一代历史学者的使命。
(作者系湖北大学中国思想文化史研究所博士生、武汉大学社会发展研究院大数据与计算社会科学研究中心跨学科团队研究人员;摘自《学术论坛》2015年第12期;原题为《计算历史学:大数据时代的历史研究》)
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!