当前位置:首页 期刊杂志

新疆杂话有声数据库建设的实践与启示

时间:2024-07-06

李文亮 马 兰 乎西旦·居马洪

(1.伊犁师范学院中国语言分院,新疆 伊宁 835000;2.伊犁师范学院,新疆 伊宁 835000)

数字化时代,信息技术发展迅猛,适当地运用它们,可为传承非物质文化遗产提供一条新途径。“从物理属性来看,无论是保存时间还是保护效果,纸质媒介、实物材料都无法与数据信息相比;同时,鉴于传承项目的‘非物质性’,利用数字化手段对其进行记录、储存和再现,也是最为有效的途径。”[1]本文以国家自然科学基金项目《新疆杂话有声数据库建设》为依托,就新疆杂话及其有声数据库建设之相关具体问题进行探讨,指出建设有声数据库的背景、重要性、内容、原则、特色等,并结合数据库建设实践一一梳理建库之难点及启示,拓展新疆杂话资源信息的共享、传播特性,提升信息使用效率及空间,促进文化交流。通过建立新疆杂话有声数据库,实现对杂话资源的统一存储和管理,无疑是宣传、介绍新疆民间珍贵文化遗产的有力实践和创新举措,对相关特色数据库的建设亦有一定的借鉴作用。

1 新疆杂话的简介

新疆杂话是集体创作的口传文学,篇幅相对短小,内容丰富多彩,形式不拘一格,凡歌谣、谚语、歇后语、俗语、俚语和幽默小故事等无所不包;叙述方法灵活多样,有叙事、抒情、说理和逗乐等各种审美构造方法;采用新疆汉语方言说唱,有“音乐性成分”,语体形态特点是“散文韵文相间体”,多无需配乐伴奏,展示方式多为站立徒口演说;人物角色刻画以“表现”为主,辅有“摹学”、“装扮”等“再现”手段。依“表演”因素构成的强弱,可分为“表演类杂话”、“仪式类杂话”和“生活类杂话”等不同类型,其中“表演类杂话”曲艺特征显著。这里所说的“新疆汉语方言”,就是指“老新疆话”或“新疆土话”,主要是兰银官话北疆片(含东疆)和中原官话南疆片中的伊犁方言。

新疆杂话起源于清末民初,广泛流传于新疆人民的社会生活中,在新疆北部地区尤为盛行。具体为:东疆的哈密市(辖伊州区、巴里坤县、伊吾县),代表点为巴里坤县;北疆的昌吉州(辖昌吉市、阜康市、玛纳斯县、呼图壁县、吉木萨尔县、奇台县、木垒县),主要代表点是玛纳斯县、奇台县、木垒县;乌鲁木齐市(辖乌鲁木齐县、米东区、达坂城区、头屯河区、水磨沟区、新市区、沙依巴克区、天山区),主要代表点是乌鲁木齐县、米东区(米泉)、天山区;伊犁州(辖伊犁州直、塔城地区、阿勒泰地区),主要代表点是伊宁市、霍城县、沙湾县。需要说明的是石河子市、五家渠市等新兴城市,主要讲普通话,不在我们的地域界定内。

新疆杂话是广泛流行于新疆地区的一种独具特色的人类口头和非物质文化传统,从诞生之日至今一直深受新疆各族人民的喜爱。2007年,新疆杂话以其独具特色的艺术魅力、深厚而广泛的群众基础、无可替代的社会价值,被列入首批新疆维吾尔自治区非物质文化产名录[2]。

2 数据库建设的背景及其重要性

2.1 地方语言资源和非物质文化遗产数字化建设的背景

新疆杂话使用的是新疆汉语方言,其地域语言文化的因子,是它区别于嘉峪关杂话、山西杂子等相近艺术形式的关键所在。新疆杂话有声形式的保存,天然地与地方语言文化的留存建立了密不可分的关系。当然,除此之外,新疆杂话作为一种独立的艺术形式,其不拘泥于民谣、谚语、俗语、俚语、小故事等具体样式,亦不限于或说、或唱、或似说似唱的演说形式,随时随地、无需装扮、简单易行等均可成为其易于流传的有利因素,凡此种种,使其群众基础广泛而深厚,它存活在大众生活中,与日常口语交流水乳交融,你中有我,我中有你,口语中夹杂杂话,杂话亦是口语,此般自然之不区分,方是其自然流传的本真形态。其次,经杂话艺人加工提炼,以故事情节、抒情叙述等贯穿,又在形式和内容上对应成趣、合辙押韵、寓教于乐等艺术因子的创新变换,成就了杂话在地域民间曲艺、口头和非物质遗产中个性鲜明之文化内核。

鉴于此,可以将新疆杂话有声数据库的建设,置身于国家语言资源建设工程和非物质文化遗产数字化保护工程序列中。根据《中国语言资源有声数据库调查手册·汉语方言》的倡导,“汉语方言”调查的语言资源中其一重要方面即口头文化,具体可是:歌谣、故事、口彩、禁忌语、隐语、骂人话、顺口溜、谚语、歇后语、谜语、曲艺、戏剧、吟诵、祭祀词等,与新疆杂话在民间语言生活的存在形式有诸多的交叉重合。就此而言,建立新疆杂话有声数据库,何尝不是对民间口语文化保真留存的一种有益补充。有学者曾言,“最能反映语言实态的是话语,保存语言样本的最好方式是保存话语。话语还负载着社会生活、风俗文化和当地人的喜怒哀乐等,这些口语文化是中华民族文化的重要组成部分,而且调查较少,保存不易。语言调查的重心放在话语上,是一种颇有意义的尝试。”[3]再从非物质遗产角度审视,我国2004年加入联合国教科文组织《保护非物质文化遗产公约》,在2005年颁发《关于加强我国非物质文化遗产保护工作的意见》(国办发[2005]18号)中,明确指出了非物质文化遗产保护工作的目标和方针、领导责任及工作机制等,并要求“认真开展非物质文化遗产普查工作”;“要运用文字、录音、录像、数字化多媒体等各种方式,对非物质文化遗产进行真实、系统和全面的记录,建立档案和数据库。”[4]我们近年来一直致力于新疆杂话的相关研究,但新疆杂话集民间文学、曲艺和语言资源于一身,对其仅进行理论探讨还远远不够。再者,就其自身和丰富的文化、艺术内涵而言,仅运用文字恐无法充分将其展现出来。最令人担忧的是,部分代表性杂话艺人年岁已高,而随着普通话的普及,新疆汉语方言的濒危态势已成事实,新疆杂话的传承发展不容乐观。故而,以数字化方式留存新疆杂话的当下面貌,势在必行。建设新疆杂话有声数据库,保留其立体、生动的语言、文字、文献及其所蕴含的社会文化信息等,并使之在较大范围内得以共享,突破时、空的限制,正是吻合时代呼唤之正举。

2.2 建立新疆杂话有声数据库的重要性

新疆杂话作为口头和非物质文化遗产,在长期的历史积淀中形成、并在人民群众中丰富发展,有着极具特色的地域色彩,有着其他文学艺术形式所不能替代的文学、语言学、艺术学与社会学的丰富内涵,它以其短小精悍的形式、凝练简洁的语言、风趣诙谐的风格、丰富多彩的内容、广泛多样的题材、倾向鲜明的褒贬、意蕴隽永的内涵,尽情地表现广大群众的喜怒哀乐,生动地反映新疆人民的生活传统和风俗习惯,是社会历史变迁的真实写照。新疆杂话既是社会生活的产物,又以其寓教于乐的独特形式对百姓发挥着教化作用,有着无可替代的社会价值。建立新疆杂话有声数据库,不仅以文本、音频、视频、图片等形式将新疆杂话进行全面而系统的保留和记录,而且有助于了解和记录新疆汉语方言,有助于民间文学、曲艺学等学者在文本之外开展更深入的研究,有助于大众了解新疆民间文化和曲艺风貌,有助于这一非物质文化遗产的传承与发展,对于深刻理解和弘扬新疆文化,均具有深远的意义。

3 数据库建设的设计与实现

3.1 数据库建设的原则、目标和标准

尊重科学,从实际出发,以特色与优势为基础,以有声记录、多种形式并举、利用数字化手段为原则,取法其他相近数据库建设的成功经验,依托高校教学、科研、资料、设备和合作单位的人才、先进仪器等资源优势,逐步建立一个具有示范性、专业性、共享性、持续性的高质量、全保真的有声数据库。力求建立有声数据库的形式,通过信息、网络等手段宣介和推广新疆民间文学、曲艺的 “活化石”——新疆杂话,推动新疆杂话的传承与发展,保持文化的多元性。为使新疆杂话有声数据库达到兼容性强、标准高的目标,我们拟对数据采集、数据加工、数据检索、数据传递、数据交换以及数据维护等采用国际、国家标准、数字化通行标准,规范文本、图片、音频、视频的格式,便于数据信息的使用与更新,保证质量,求好求精。尽可能地按照“统一代码、统一标准、统一字体”的要求建立数据库支撑技术的实现方式和方法。

3.2 数据库的主旨和特色

根据“表演”因素构成的强弱,将新疆杂话分为“表演类杂话”、“仪式类杂话”和 “生活类杂话”三种。表演类杂话曲艺特征明显,“表演”是其起统帅和主导作用的核心要素,这类杂话文本较固定,篇幅相对较长,内容情节较完整,传播影响面相对较广,主要包括早期社火活动中的丑角及小商贩讲说的杂话(如《狗皮膏药》、《风调雨顺太平年》等)、还有建国后由杂话艺人编创服务于群众文艺生活并公开演出的杂话 (如杂话艺人赵国柱、王劲盔、冯燕、窦世刚等演说的杂话)。此类作品多有音频、视频、文本等资料,构成了新疆杂话数据库中有声资源的主要组成部分。仪式类杂话则仪式特征明显,杂话讲说贯穿在婚丧嫁娶等各个仪式当中,文本随时随地变化,篇幅长短不一,传播影响有一定的局限性。此类杂话只有个别作品有音像资料,部分作品有文本资料。生活类杂话的存在和流传均伴随于流传区域人们的日常口语生活之中,口传文学特征明显,没有任何“表演”因素,文本变异性最大,样式变化多端,歌谣、谚语、歇后语、俗语、俚语等无所不用,篇幅长短不一,内容庞杂、包罗万象,传播影响有一定的区域性特征。在新疆杂话流传的区域里,但凡有口语交流发生就有可能说杂话。正因如此,新疆非物质文化遗产专家委员会委员程万里先生认为,“新疆杂话是一种大众口头文学。传播是在人们日常的说话中进行的,没有专门的表演,也没有专门的表演者和传承人,偶尔会有个别具有语言表达天赋的人,成为大家公认的说杂话的高手。新疆杂话是以韵文形式传播人生哲理、生活知识、生产经验、规矩礼仪、劝善罚恶、幽默笑话等等口头文学作品,说杂话的高手也成了新疆民间文化的集大成者。它不是表演艺术,因此新疆杂话不属于曲艺,而是存活于大众之中的民间口头文学。”[5]这里他说的杂话基本指的是“生活类杂话”,忽略了曲艺性较强的表演类杂话的特征,但生活类杂话不易被采录却是事实。

鉴上,《新疆杂话有声数据库》的有声资源主要围绕“表演类杂话”展开,突出特色地展现有声杂话的语言资源性和语料专业性,针对每个具体有声作品,均采用三层注释。即第一层用普通话记录艺人作品,第二层是艺人杂话作品方言发音的普通话同音字替代(无同音字的用拼音注出),第三层用汉语拼音按新疆方言的发音进行注释。如:

新疆话有意思得很(赵国柱)

这个新 疆 人 实在的很,这个新疆 话也 有意思得很

置个新 疆 rèng实在滴很,置个新疆 话也 又意思滴很

Zhì gē xīn jiāng rèng shī zài dì hèn,Zhì gè xīn jiāng huà yě yòu yì sì dì hèn

如此,既保证了杂话作品的数字化真实记录,留存了杂话演说的真实面貌,三层注释的加注又提升了数据库的专业性、学术性、普适性等价值内涵。

3.3 数据库的建设规模

新疆杂话有声数据库将建成为独立性元数据(连接纸本资源)与关联性元数据(连接数据库)并存,数字影像资源与数字文本资源相结合,文字、图片、活动图像、音频、视频、多媒体、动画、等多种资源相互补充、重点突出、特色鲜明的数据库,在整合现有各类资源的基础上,建设成品容量约为4TB的数据库。建设数据库传输发布的门户网站,该网站可通过互联网、专网、宽带网和3G移动网等网络,将所建成的数据库传输到广大用户,实现数据资源的共享。

图1 数据库中心门户网站平面布局图

3.4 数据库建设的资源构成

新疆杂话有声数据库不仅集合存储着新疆杂话数据信息,更要科学地制定数据模型组织,实现数据的科学存储,并以最佳的方式、最少的重复得到有效的调用和共享。建立新疆有声数据库,须立足新疆杂话本身,进行实事求是的考量,它作为一种特立独行的口头文化样式,与新疆汉语方言的口语是密不可分的,可以说它的突出特征就是 “有声”,这昭示了建设新疆杂话有声数据库与其他纯文本数据库建设的根本区别。对新疆杂话而言,有声资源主要包括音频、视频,无声资源包括文本资料、图片和其他等,这也构成了数据库建设的五大模块:音频、视频、文本资料、图片、其他。五大模块资源的具体构成如下:

音频资源:主要包括新疆杂话具体作品的演说录音,其中包括项目组录制的部分作品和杂话艺人(包括匿名艺人)因演出、宣传等而录制的部分作品。

视频资源:主要包括新疆杂话具体作品的演出视频,其中包括项目组录制的部分作品;杂话艺人(包括匿名艺人)因演出、宣传等录制的部分作品;在网络、微信等媒体上采录的部分匿名作品。

文本资源:主要包括新疆杂话的作品文本、相关资料;新疆杂话的理论研究成果(论文、著作、网络文献)等。其中新疆杂话的作品文本,由两部分构成:一是与音频、视频杂话作品所对应的相应文本;二是无音频、视频演说资源仅有文本的杂话作品。

图片资源:主要包括包括新疆杂话的演说、艺人、活动、生存环境等图片资料。

其他资源:主要包括其他艺术样式与新疆杂话交叉的作品;与新疆杂话相近的艺术样式资料。

其中,音频、视频资源坚持“三层注释”的“精准性”,文本、图片资源坚持“全面性”,其他资源坚持“兼容性”的建库宗旨,共同构成数据库的高效、实用和特色内涵。

3.5 数据库资源的获取及原则

田野调查资源。通过实地调研、电话访谈、委派专人等诸多方式,调查走访“新疆自治区级非物质文化遗产项目——新疆杂话”的申报保护单位、新疆杂话流传区域地方县市的文化相关单位、新疆杂话流传区域的知名或代表性艺人,获取到的资源,可称之为“调研资源”,其使用原则为:有声资源须公开展演过,至于演出范围(市、县、乡镇、村等)的大小可以忽略。无声文本的使用原则设定为:明显是有曲谱配套的民歌不用;侧重于使用民谣、谚语、俗语、俚语等;点面兼顾,即多地都有流传和具有某地特色的;明显是内地省区传来的不用。

网络媒体资源。除项目组调查采录外,还积极利用现代化信息技术和网络媒体资源,广泛搜集、检索、采录流传于网络、微信等媒体上的新疆杂话资源。对此类资源,项目组专门进行了数据甄别,对于已掌握杂话艺人的漏录作品直接采用,对于匿名作品以演说者、方言、流传地域等为基本依据加以遴选,择优入库。

3.6 数据库资源的加工和处理

3.6.1 音频资源。以码流为1.44M的高品质CD存储音频节目,数据容量为10M/分钟。部分要求高的音频,以原始的WAV文件存储。所有音频资源的处理(三层注释、剪辑、合成等)都尽可能按上述最佳格式进行,在互联网上发布的音频节目应为296K码流。

3.6.2 视频资源。通过专用设备转化成电脑中声音和影视AVI、MPEG等存储格式。素材存储不小于5M码流的MPEG-II视频,容量估算为80M/分钟。一部分高清节目(45M码流)的视频存储容量按照120M/分钟计算,在互联网上发布的视频应为700K码流的MPEG-4视频,容量为13M/分钟。

3.6.3 文本资源。对于各类文本资料,采用XML文档和RTF、TXT、PDF格式。通过翻拍、扫描方式等方式将纸质的文件进行数字化,并通过OCR识别,将处理、分类和分检好的文献资料批量转换成图像文件,并自动实现图像的压缩和存储。运用目前比较通行的PDF格式,优点在于能够较好地保持文本原貌,网络传输速度快,亦可边下载边阅读。容量为文字型电子书50K/千字 (页),图片型电子书150K/千字(页)。文本数据库建设主要使用两种格式:一是文本性质的格式,包括网页、Word、WPS文档等;二是图片性质的格式,主要针对那些无法实现文字录入的文献等资料,包括由图片直接生成的PDF电子书、网页包等。

3.6.4 图片资源。常见的图像文件转换格式主要 有 :JPEG、GIF、PNG、TIFF、BMP、PSD、 SWF 等 。根据我们的设计,保存图片等图像文件时尽量使用JPEG、TIFF格式。容量按4M/张进行存储,在互联网上以800*600像素发布。

其他资源的数据加工参照上述资源形态进行。

3.7 数据库的设计思路

新疆杂话有声数据库,按照资源的形态设计为一个总库,五个分库,若干个子库。子库的设立及数量的不确定,主要是保证数据库的资源的持续更新。五个分库的资源呈现及检索方式设计为:

3.7.1 音频资源分库。此库下设两个子库,一为杂话作品库,以“杂话艺人和作品名称”方式呈现,如 “赵国柱-外地的朋友跨新疆”、“冯艳-傻妞的大实话”、“匿名-耳朵”等;二为调研录音库,以“被访者身份和姓名”方式呈现,如“艺人-窦世刚”、“昌吉州艺术剧院-戴明忠”等。检索以数据资源姓名、杂话作品名称等为关键字。

3.7.2 视频资源。此库下设两个子库,一为杂话作品库,呈现和检索方式同音频资源分库一;二为杂话介绍库,以“名称-来源”方式呈现,如“新疆杂话-新疆图书馆”等。

3.7.3 文本资源。此库下设三个子库,一为杂话调研作品文本库,呈现和检索方式同音频资源分库一;二为民间文学集成资料库,以“地方-样式”方式呈现,如“奇台县-方言串说”、“巴里坤县-谚语”等,检索以数据资源所在“地方-样式”等为关键字;三为研究文献库,以“作者-名称”方式呈现,如“戴明忠-新疆杂话初探”、“李文亮-新疆杂话的产生与发展概述”等。

3.7.4 图片资源。此库下设两个子库,一为演出图片库,呈现和检索方式同音频资源分库一;二为相关资源图片库,以“人员-形态”方式呈现,如“窦世刚-创作图”、“李广静-调研图”等。

3.7.5 其他资源。此库下设若干子库:一为网络方言杂话库,以“名称-来源”方式呈现,如“****-新疆土话大百科”、“****-新疆阿达西”等;二为相近曲艺库,以“样式-名称”方式呈现;三库为其他库,以“项目-名称”方式呈现。

数据库模块如下图所示。

图2 新疆杂话有声数据库模块

4 数据库建设的难点与启示

4.1 新疆杂话语料收集问题

新疆杂话在流传和创作上具有明显的口头性,加之流传的时间、空间跨度大,因此资料收集工作繁重,内容庞杂,意义重大,作为一项开创性研究,恰当地选择调查地区、代表性艺人等都成为了资源采集的关键和难点问题。尽管事先有准备,但是在实际展开过程中,仍有诸多问题,如一次调研所用的时间长,不能及时采录信息;素材广泛存在于民间故事、歌谣、谚语、歇后语等其他民间样式之中,资源获取成为一个庞大的工程。

4.2 新疆杂话语料整理加工问题

在资源信息处理过程中,也面临诸多问题:一是由于方言和普通话的差异,存在普通话中找不到同音字的情况,只能用汉语拼音来注释,这就使得部分作品中的些许内容无法做到三层注音;二是由于作品内容的灵活性,同样的意思可能作者的表达方式和发音会前后不一致,使注音时出现同字不同音,用普通话同音字替代时也一样出现多样性的问题;三是注音工作主要靠听力辨识,机动性强,后期校正工作量很大。

4.3 数据库建设的启示

4.3.1 标准建设方面。为了优化数据库的设计,提高数据库设计的合理性和数据访问高效性,同时便于阅读和理解数据库的结构,提高数据使用的质量和效率,笔者所在项目组特制订了一套数据库设计规范来促进数据库编码的标准化。内容包括设计规范(规范约定、字段规范),使用规范(综合功能、查询要求、增加要求、删除要求、修改要求)、其他规范等。

4.3.2 关键技术支撑。为有效解决数据库建设的核心技术问题,采用了基于J2EE应用服务器技术的B/S体系结构即服务器/客户端模式。服务器端主要用于存放与管理数据,使用具有强大伸缩性和可靠性的网络后台数据库软件SQL SERVER等。客户端软件采用相关开发工具ASP,借助ASP并结合相关语言录入、合成、辨识和输出等开发软件共同制作。

4.3.3 调研采集数据方面。因杂话流传地域广且距离相隔较远,杂话表演往往是在乡镇一级的晚会上演出,或是在聊天时的即兴之作,不具备较好的音视频录制设备,项目组专为一个作品的演出专门前往录制又不现实,综合考虑后采取了多种采录方式,如由杂话艺人录制杂话作品,项目组付费采集的形式;委托他人代为录制或由观众在现场用手机录制或拍摄的形式。这样有效地节省了精力和经费,但数据信息的质量却参差不一,还需进一步考虑改进的可能性。

5 结语

新疆杂话有声数据库是数字影像资源与数字文本资源相结合,音频、视频、文字、图片等多种资源互补,具有专业性、共享性、持续性的高质量、全保真的数据库的探索性尝试。

通过数据库建设工作的推进,首次对新疆杂话这一口传民间曲艺的特殊形式进行系统的调查研究,有助于促进新疆杂话理论体系的建立,有助于更多人了解新疆曲艺风貌,有助于这一非物质文化遗产的传承与发展。它对深刻理解和弘扬新疆文化,构建多民族团结互助的和谐社会,稳疆固边都意义深远。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!