时间:2024-05-04
张昊苏
2020 年初骤然爆发的新冠肺炎疫情,使古典文史学科传统的线下阅读、检索方式受到极大限制。在此背景下,线上研讨方式与数字人文研究视角得到学界更多的关注。4 月至5 月,由北京大学、南开大学等高校青年文史学者自发建立的线上学术共同体“文献挖掘整理研究会”,决定通过“腾讯会议”平台发起第三次学术沙龙,助力文史学者更好地运用线上资源、推进学术研究。
本次沙龙邀请了来自北京大学、清华大学、复旦大学、南开大学、安徽大学、日本学习院大学、台湾清华大学、中华书局等单位不同专业领域的学者,每周日围绕一个议题展开研讨,持续六周;每场约2 小时,网上参与者100 至300 人不等。多位前辈学者通过各种方式对沙龙活动提供了指导与帮助,如中华书局编审张忱石先生向沙龙提供了即刊近作《〈北朝墓志全集〉索引后语》,以支持相关议题的讨论,并答允接受沙龙专访,进一步表达对学术检索问题的理解。部分内容因涉及待刊内容,采取了微信群讨论、内部分享的方式。
本次沙龙主要由以下6 场系列活动组成:
2020 年4 月19 日,“瘟疫时期的网络资源”圆桌对谈。与谈人:张昊苏(文学博士,南开大学文学院教师)、段宇(史学博士,日本学习院大学东洋史学系教师)、未曾(书格网创始人)、高树伟(北京大学中文系博士研究生)。
2020 年4 月26 日,“学术检索的过去、现在和未来”圆桌对谈。与谈人:黄一农(台湾清华大学教授)、李旻(理学博士,复旦大学计算机科学技术学院教师)、刘姝然(北京大学信息管理系硕士研究生)、鲁明(中华书局《文史》编辑部编辑)、史睿(北京大学中古史研究中心副研究员)、苏芃(南京师范大学文学院教授)。
2020 年5 月3 日,题为“古典文献资源的整合与导航”的专题演讲。主讲人:唐宸(文学博士,安徽大学文学院教师)。
2020 年5 月10 日,“改版以后的书格”专题演讲。主讲人:未曾。
2020 年5 月17 日,“中华书局的数字资源与使用”专题演讲。主讲人:洪涛(中华书局古联公司总经理)。
2020 年5 月24 日,“历史史实数据库的建设与应用”专题演讲。主讲人:李旻。
在沙龙十余名志愿者的支持下,上述发言和讨论内容基本同步完成整理工作,总计达15 万字。“澎湃新闻·私家历史”栏目全程关注了沙龙活动,并以多期连载的方式刊出发言摘编稿。
就学术理念与运作方式而言,本次沙龙活动展现出古典文史研究的新特点、新理念、新趋势,较之研究会此前举办的两次线下沙龙,展现出一些新的思考。各场沙龙主旨不同,但亦颇有交会之处。在此以核心议题为中心略做梳理。
首先,沙龙重在反映古典文史学者的数字人文观念与立场,同时尝试发起跨学科、跨年龄的“头脑风暴”,试图突破学科壁垒,达成跨领域研究的互通与互补。
如果泛泛言之,当下国内文史领域中所讨论的“大数据”或“数字人文”研究,实际隐然有两种侧重方向。其一,以新的社会科学乃至自然科学手段解释传统文史问题。比如,注重可视化呈现,引入社会网络分析,开发文本计算与机器学习等研究方法。其二,立足于海量数据所提供的便利性,改良传统文史考据方法与文献学理论,如近年颇受关注的“e 考据”等。本次沙龙的主要发起人、与谈人及报名观众,多具古典文献学相关背景,故较倾向于后一种研究思路。以沙龙网络报名表“您的专业方向”为对象展开统计,选取大于3 的词频制作饼形图,可见“文献学”方向占据绝对优势,对谈、答问亦往往以文献检索如何推动考据学研究为主要关切对象。黄一农、苏芃、唐宸、李旻、高树伟等学者的发言均举出若干具体例证。
沙龙报名观众的主要学术方向(据本人报名表所填关键词统计)
但沙龙宗旨不止于此。除立足于文献研究具体命题之外,实希望引入技术思维,突破现有学术屏障。具体而言,即在现有技术背景下,检索环境、检索技巧是如何对文史研究方法和治学理念产生关合的,可能引发哪些方法论层面的新知。未曾、李旻、刘姝然、唐宸、洪涛等学者的发言均涉及此类方法论问题。
在沙龙第二场圆桌对谈中,讨论重点集中在学术检索的新旧转换,尝试探讨计算机环境与传统知识系统的融合途径,以及当下信息背景下可能被学者忽略的若干问题。围绕“学术检索”,各位学者分别讨论了具体问题、技术设计、媒体环境等领域。李旻的发言讨论了新型学术检索平台与文史数据重组的问题。其发言指出,在计算机全文检索代替传统索引之后,出现了诸多新的细节问题。比如,计算机对“字”的编码概念,会影响异体字实际检索的准确性,解决这一问题需要学者与底层数据库厂商沟通考虑。刘姝然谈到搜索引擎与研究视野的关联,并畅想学术检索系统借鉴商业搜索引擎路径的可能性,其思路在于从信息科学(information science)角度考虑文献检索与知识图谱构建的相关问题:如果用户缺乏相应理念,容易受制于“信息茧房”,导致自身刻板认知的加深。这些跨学科理论思考引起了文史学者的共鸣。史睿重点探讨了新旧媒体在知识管理体系上的张力,认为新媒体有信息黑洞和信息失序等“原罪”,破坏了传统目录学、图书馆学建构的知识模型与知识线索,且自然语言处理、语义检索等诸多问题尚无完美解决方案。在这一特殊时期,知识管理、知识发现应得到文史学者更多的关注。
其他几场主题报告中,唐宸介绍了当下古典文史研究领域的前沿技术,如文本标记、自动笺注、自动句读、自动校勘、人工智能创作等,认为自然语言处理将极大提升古典文献研究的效率与水准。以自然语言处理方式分析古代文学文本,既可以尝试以“指纹鉴定”方式研判作品风格,也可以考察不同文本间仿作、互文等关系。张昊苏认为,这为沙龙此前讨论过的“e 互文”话题提供了可操作的思路。洪涛的演讲谈到了中华书局古联公司建设开放实验室的计划,将结合出版机构、科研单位及独立学者之力,尝试多专业合作的数据加工,并讨论到德国汉学家薛凤的展望——人文学者提出需求与想法,程序员、工程师设法实现相应需求,由此形成数字人文的新展开方式。李旻的专题演讲介绍了个人独立建设历史数据库的架构经验,并述及“怪猫的历史数据库”与CBDB 在设计理念方面的异同。此外,也重点讨论到数据库如何被文史学界所接纳取信的问题。
约言之,掌握电子检索技巧的传统文史学者、兼顾古典文史与数字人文的信息科学研究者、实际主持数据库建设的计算机科学家,从较前沿的一面来说,已经有比较深入的交流乃至“兼挑”,但相应理念的完善与推广,仍有很多值得进一步讨论的重要议题。法国年鉴学派历史学家勒华拉杜里早在1967 年就提出,未来的历史学家就是一个程序员,要么就不是历史学家。以今之眼光看,计量史学或许只是历史学研究的一部分,但计算机广泛应用带来的思维方法之变,有可能为文史研究提供更广阔的前景。
本次沙龙尤重学术检索与数字落差相关问题的反思,并由此论及新时期的知识整合、知识扩展等诸多问题。
在当下的数字环境下,数字落差比较集中地体现在两方面:
其一,使用者供职的机构,由于经济预算状况与数据共享理念不同,所购买之商业数据库、能够为使用者提供之文献服务,均有较大差异。以对文史数据库的重视程度、购买力度论,即使是接近同一级别的高校也有巨大鸿沟。沙龙嘉宾曾尝试做了初步检索,首都某“985”综合类高校,图书馆所购“中文数据库”达166 个,文史专业数据库29 个。某直辖市“985”综合类高校,图书馆已购“中文数据库”为61 个(不含试用、自建数据库),“古籍文献”数据库为12 个(已去重),且不少常用基本数据库均未购置。如果考虑到某一数据库下尚有诸多子库的问题,这一数字鸿沟还将更加惊人,对普通研究者的影响不言而喻。各研究单位理念不同,还体现在信息共享、信息公开等方面。高树伟指出,上海、浙江、天津等地均尝试搭建数据共享平台,形成同一地区内的资源共享,这一努力值得期许。古籍图像的公开与复制方面,不同收藏机构、科研院校的选择颇有不同,有的已开始向社会公开电子版图像,有的则对读者的正常阅览、复制做出诸多刁难。除此之外还有一些争议性问题,如工具书等文献的整合与使用中,如何平衡版权、商业利益和资源整合,仍是令文史学者关注的重点议题。张昊苏、高树伟、段宇从不同角度讨论了这些话题,反思了学习者、教学者、研究者的不同需求。
其二,使用者由于缺乏检索技巧与信息渠道,不能完全穷尽现有之免费数字资源。这受制于技术门槛与时间成本等方面。沙龙多场活动均向观众提供大量电子资源检索方法及信息更新。首场圆桌对谈,段宇、未曾、高树伟详细梳理了疫情期间国内外机构新公开的资源,亦兼及部分相对冷门的数字资源和电子技术手段。唐宸的演讲介绍了建设奎章阁“中国古典文献资源导航系统”网站(www.kuizhangge.cn)的缘起、现状与愿景。作为数字人文基础设施,奎章阁网站已分类收录340 余个重要文史数据库,并提供分类、简介与链接,以便使用者驾驭电子资源。唐宸认为,数字人文发展趋势应走向聚合式检索(API),以此可辅助古典文献的研究。奎章阁网站近期建设的全球汉籍分布GIS 系统,及新增加的“微信公号”板块,均是沙龙期间的新尝试。未曾的书格网(https://shuge.org/)自2013 年成立以来,长期致力于“开放式分享、介绍、推荐有价值的古籍善本,并鼓励将文化艺术作品数字化归档”,整理、发布了大量网上公开的、公共版权领域的书籍并提供免费下载。网站“交流区”提供了网友求取资源、分享信息的渠道。未曾在演讲中对书格网站的理念与新版功能做了介绍,并提供了有助于梳理电子文献的几个轻量软件。李旻介绍了以二十余年之力独立建设“怪猫的历史数据库”“怪猫的图书馆”(http://biographicdb.fudan.edu.cn/OldBookStore/People)的数据规模,直播展示了数据库的操作方式及改造设想,部分图书、人名、机构资源信息已在线上免费公开。洪涛的演讲除介绍籍合网(www.ancientbooks.cn)各数据库的发展现状外,还介绍了中华书局新开发的若干技术工具,包括已公开的悉昙体输入法和企业内部试用的古籍编校插件、引文核对系统等。
上述资源整合,均有助于打造数字人文共同体,降低文史学者的检索门槛。沙龙系列活动旨在通过介绍相应数字资源,尽量为不同研究环境下的研究者降低数字落差,以便展开更高效的学术研究,达成知识扩展。在沙龙笔谈中,学者对学术检索中较隐蔽的数字落差及古籍数字化工作、文史数据库检索功能等问题提出了相应建议。高树伟指出,不同机构因购买数据量不同,在“全国报刊索引”等数据库能检索到的材料相差甚多。苏芃建议古代基本典籍应参考“中华电子佛典”(CBETA),建立可供征引使用的先秦两汉典籍的电子文本“定本”。在个人体验基础上也有对相关思考的理论化。洪涛的发言表达了类似期许,也论及现有的困难。高树伟认为,“学术公益”理念在当下颇有价值。段宇结合个人留学、教学经验,提出了以“文献挖掘School”为代表的网络学术共同体对“80”“90”一代青年学者研究与交流的重要影响,并对比了中日两国信息理念的差异。
本次沙龙的另一热门话题是,通过新的工具与研究方法解决传统文史领域重点学术议题,以传统方法、数字方法交互的方式,思考古典文史研究的可能趋势。
开展“e 时代的考据”无疑需要大量检索工作,但要想成为一种更具普适性、操作性的研究方法,还需要不断地呈现案例、总结方法。率先提出“e 考据”的黄一农,早已在著作《二重奏:红学与清史的对话》中表达出“在数位与传统相辅相成的努力中……以具体成果建立一个成功案例,强有力地说服文史学界”的期许,希望通过聚焦《红楼梦》相关文献史事的考索,探讨大数据时代文史研究的新变局。继2018 年在沙龙发表“谈e 考据的经营模式”主题演讲后,黄一农再次参与沙龙对谈,介绍了自己对曹雪芹家世、生平的最新研究方向,提及曹雪芹高祖曹振彦,以及在对《大金喇嘛法师宝记》碑进行研究的过程中锁定具体材料的方法。高树伟、李旻对这一问题亦有相应论述,揭示了前贤未特别关注的新史料。从中可见红学因其特殊性质,仍是大数据时代的“显学”。传统红学家认为红学文献早已“竭泽而渔”的看法,值得进一步省思。苏芃举出教学、研究过程中发现的“韩康子”“张守节”等案例为证,指出数据库时代下“他校时代”的来临,认为他校法将成为校勘学的发展趋势,能够支持研究者高效检索到以往不容易发现的材料。高树伟对“张守节”问题也久有关注,相关研究成果以本次沙龙为媒介产生了互动与推进。唐宸谈及个人通过大数据检索的具体研究成果,通过从不知名小人物的考证入手,为历史疑难问题提供新的资料。李旻分享了建设数据库过程中发现的“二十四史”点校错误与史实考据疏误,如其“唐刺史考数据库”实际上系统检核、订补了《唐刺史考》及相关研究成果,主要即得益于大数据的支持。张昊苏谈及e 时代对传统考据方法和学术评价的影响,指出过去某些工具性较强的“绝学”研究可能在电脑的帮助下重现,这种环境之变与学术评价标准相因应,可能影响到当代人的阅读方法和研究旨趣。
在沙龙讨论环节及内部互动中,还具体谈及若干未刊发的新研究,将在沙龙后续活动中逐步发表。2021 年为“新红学”诞生一百周年,沙龙多位成员于红学素有研究兴趣,希望借此契机深入反思百年红学的方法价值,探索大数据时代《红楼梦》相关研究的可能新途,进而思考古典文史研究中一些更具普遍价值的问题,改善现有的知识生态,结合数字人文理念启发新的学术思维模式,驱动更为纵深、精确的考据研究。
受疫情所限,本次沙龙不得不转为线上活动,但因采取了与以往不同的运营模式,亦有不少新的收获。以线上直播+微信群讨论的方式聚焦议题、面向不同受众;以志愿者众筹方式整理录音文稿,并通过媒体发表内容摘编,极大地提升了沙龙工作效率、影响力及与会者的参与度。据悉,沙龙文稿出版事宜也已提上议事日程。
总结经验,沙龙发起人尚有诸多展望:一是进一步打造学术公益平台,为缩小文史学界数字落差,提供具操作性的解决方案与公开资源共享;二是围绕学术检索、考据方法等议题,重点访谈领域内有建树的学者,俾能展示近数十年技术变迁与学术范式的关联;三是思考知识生态相关问题,使传统文史研究与数字人文方法能够具备更高的契合度;四是讨论e 时代学术交流与学术规范的伦理问题,探讨线上交流模式在改善知识生态的同时,对现有学术评价标准、征引方式等问题的影响。沙龙未来拟继续聚焦学术前沿议题,促进学界信息共享,力求对e 时代治学环境有所裨益。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!