面向信息处理的少数民族语料库构建分析

时间：2024-05-04

费德莲袁凌云权朝臣

摘要：语料库是一切自然语言处理的基础，尤其是在机器翻译、语音识别等应用的大趋势下，构建高质量、大规模、标准化的语料库尤为重要。民族语料库构建工作自20世纪八九十年代起，到目前已取得众多成果。文章主要对我国民族语料库的建设现状及相关研究进行介绍与评价，重点分析蒙语、维语、藏语语料库研究工作，并在此基础上，针对民族语料库构建存在的问题提几点建议，以期为其他少数民族构建民族语料库提供借鉴与参考。

关键词：少数民族语;语料库构建;蒙语;维语;藏语

语料库从1.0，2.0到大数据推动下的3.0时代，给语言研究及语言应用研究带来了革命性变化，针对语料库的构建与研究，俞士汶、何中清、庞伟、谭祥燕等对国内外语料库发展现状都进行了综述，但文章多以汉、英、日语为研究对象，很少关注民族语料库。虽然民族语信息化起步晚，但根据近10年（2009—2018）《中文信息学报》、全国少数民族语言文字信息处理学术研讨会等期刊、会议的发文情况看，民族语料库构建与研究工作正在飞速发展，尤其是蒙、维、藏等几个少数民族语，无论是在语料库构建，还是基于库的语言研究或语音识别、机器翻译等方面的应用研究都取得了重大突破。

1 民族语料库整体发展现状

为从整体上把握民族语料库构建现状，本部分对中国知网（China National Knowledge Infrastructure，CNKI）收录有关民族语料库构建的论文进行筛选，得到与之直接相关的论文167篇，并从年载文、研究主体、关键词3个方面分析民族语料库构建现状、热点与发展趋势。

1.1 年载文

根据年载文量（见图1）可知，1992—2008年论文较少，民族语料库处于缓慢发展中，未引起太多研究者的关注;2009年至今，载文量稳步增加，且论文被引频次逐年递增，说明近10年民族语料库构建与研究一直处于活跃状态，今后也将存在极大研究空间。

1.2 研究主体

如图2所示，内蒙古大学与新疆大学研究成果远高于其他机构，有关蒙、维语语料库的研究较多，开展语料库研究的主要是西北部少数民族，其他如云南的少数民族研究较少。通过对文献进一步分析发现，把语料库建设本身作为研究对象的并不多，持续性研究更少，相关学者更倾向于语料库应用研究，使得众多因研究需要构建的小规模语料库未得到融合、共享等有效利用。

1.3 关键词

通过书目共现系统对文献关键词进行分析，设阈值为6，结果如表1所示。数据库频次较高，说明部分民族语料库研究还处于数据库阶段;民族语料库研究以蒙、维、藏为主;语音合成、语音识别与管理平台频次较高，是目前的研究热点;此外频次低于6的关键词占比较大，说明民族语料库整体研究内容较为分散。

2 民族语料库具体构建现状

蒙、维、藏语信息化起步较早且有各高校的持续研究，相较于其他少数民族有明显的研究优势与更前沿的研究成果。因此本部分重点介绍蒙、维、藏语语料库构建现状，对其他民族语料库仅做简单介绍。

2.1 语料库建设

相较于维语、藏语，蒙语语料库更多、更完善且有更多专业语料库，已建成回鹘体、托忒文、八思巴文、西里尔蒙文古籍、蒙古秘史等文献语料库以及《17世纪满蒙关系书信》语料库，蒙语谚语、熟语、电话语音、口語语料库以及汉蒙、蒙汉、汉蒙俄英日等多语种平行语料库。其中，现代蒙古语文数据库较为典范，语料涵盖蒙语教材、文学、政治、新闻、社会科学、自然科学以及口语等内容，目前正在建设包含言语、文献的2亿词级蒙古语语料库。

维语已建成800万，1 000万词级的维语语料库以及123万词级的词法标注语料库和3 000句的句法标注语料库，30万句的维汉平行语料库、汉维医疗平行语料库、乌兹别克语—维语平行语料库、汉文—维吾尔文平行语料库等语料库，并在网络与在线文本语料库方面进行了探索，部分研究者也开始研究维语电话语音及方言口音等语料库。

藏语语料库研究自1999年开始，先后构建了500万音节字的初级平衡语料库、1.5亿字符的大型藏文平衡语料库、1.3亿字的大型藏文语料库以及藏语拉萨话口语语音语料库、藏语13个方言点的方音数据库、藏语谚语、电话语音语料库。此外还构建了藏族历代文献资料库、藏文农牧科、医药等文献数据库，但多数属于数据库、资料库，未上升到语料库研究阶段。

3个少数民族在手写语料库、动态腭位语料库、情感语料库及多模态语料库方面也进行了一些尝试。除蒙、维、藏语外，戴红亮、王晓丹、何芳芳、杨健、王成平、张羽等分别对傣、朝鲜、羌、白、彝、壮语语料库进行构想与建设;针对濒危民族语言语料库，范俊军、刘岩等也进行了系列设计与研究。

2.2 语料库加工处理

标注规范方面，蒙语曾提出建立词语分类与标记集，但因无后续投入，未形成较规范、完整的研究成果;2009年，新疆大学确定了《维吾尔语词语分类体系及其标记集》[1-2]，同年，玉素甫等[3]制定了《信息处理用现代维吾尔语4类词干词类标记规范与手册》;2019年正式实施《信息处理用藏语词类标记集》《信息处理用藏文分词规范》两项国家标准[4-5]。近年，曲珍、陈晨、郭淑妮、赵建东等提出面向语音合成的音段、韵律标注规范，为蒙、藏语规范标注起到一定作用。

分词标注方面，设计了班智达、SegT，TIP-LAS等藏文分词系统，研究了融合语言特征的最大熵藏文词性标注模型及基于词向量模型的词性标注方法，提升了词性标注准确性;蒙语基于AYIMAG开发了新一代蒙语词语自动切分与标注系统。除基于规则的方法，少数民族也开始探索基于神经网络解决民族语分词标注问题，2018年李博涵等[6]对比几种神经网络，发现编码器—标注器长短期记忆模型得到的分词结果最好，准确率达92.96%。

管理平台方面，蒙语在相关课题背景下已建成语言资源管理平台、宣传与发布平台及加工与研究平台[7];维语构建了支持多语种的语料库建设与管理平台[8]以及维语中介语语料库管理系统[9]，实现了语料的在线录入、审核、标注与检索等工作。

2.3 语料库应用

一方面基于民族语料库苏娅、毕丽克孜、卢亚军等分析掌握了蒙、维、藏语的发展现状;胡传成、久美然不旦通过研究民族语句式、词汇，提升维、藏语教学科学性。另一方面基于语料库研发了汉蒙英日、汉维哈柯文等电子词典，推出蒙语语音合成软件、汉蒙翻译系统与维语语音识别、语音合成、维汉翻译软件，同时西藏大学、科大讯飞先后发布藏语智能语音云平台、维汉语音翻译终端设备，进一步加快了民族语信息化进程。

3 民族语料库建设和应用中存在的问题及相应对策

针对民族语料库建设和应用中存在的问题，提出以下几点思考与建议。

3.1 語料库发展不平衡

通过前文分析可知，蒙、藏、维语语料库较完善，羌、壮、彝语等语料库规模较小，文本来源较局限，多数民族还未构建民族语料库，无法满足语言信息处理的需要。为促进民族语料库均衡发展，除国家对民族语言项目的支持与资金投入，民族地区，尤其西南地区院校应鼓励相关专业学生构建本地区民族语料库，特别是濒危民族语言，为语音研究、教学及应用等提供有效数据。

3.2 语料库构建不规范

民族语料库多由个体自主采集构建，库内量少，样本不均衡、发音人较少且缺乏统一的加工标准，不同的编码方式、标注规则以及层级使众多语料库难以融合共享。基于此，首先，应统一各民族语字符编码集，制定技术标准和建议性文件;其次，借鉴SAMPA-C，C-ToBI设计本民族语标注规则与标注集;再次，采用主动学习策略，为标注对象提供低频义项或含更多语言信息的语料，实现样本均衡;最后，组织构建民族语料库管理平台，整合以往小型语料库资源。

3.3 语料库自动化程度低

民族语多采用田野采集的方式采集语音，但不同地区、村落发音存在差异，采集效率低;通过专家或专职标注员使用Praat等工具进行人工标注，费时、费力且容易出错。基于此，可定制民族语语音采集软件远程采集，同时建立语言学模型，以现有语料为训练语料，尝试自动标注，人工复核，以迭代的方式提高标注效率与准确性，促进民族语料库构建工作的自动化。

3.4 语料资源缺乏共享机制

从目前情况看，多数民族语料库没有上网，未向公众开放，如2009年建成的彝语语音参数数据库，且无相应平台提供检索与下载服务。通过良好的资源共享机制，搭建民族语料库共享平台，使资源得到推广与共享，既方便相关研究者检索、浏览与使用，提高语料的使用效率，又促进民族语之间相互借鉴，推动民族语信息化研究。

4 结语

民族语由于自身特殊性，存在文本与读音不规范、地区差异性等问题，同时缺乏专业技术人员，民族语料库构建面临诸多问题。针对少数民族语料库构建，应确定各民族语相关标准文件，设计、开发语料加工系列软件工具，借鉴汉、蒙、藏、维等语语料库构建经验，促进构建工作的规范化与自动化，同时鼓励热爱民族语的母语或非母语研究者投身其中，为保护民族语言文化、促进民族语信息化作出努力。

[参考文献]

[1]阿里甫·库尔班，吾买尔江·库尔班，吐尔根·伊布拉音.信息处理维吾尔语词语分类体系及标记研究（Ⅰ）[J].新疆大学学报（自然科学版），2009（4）：476-481.

[2]阿里甫·库尔班，吾买尔江·库尔班，吐尔根·伊布拉音.面向信息处理的维吾尔语词语分类体系及标记研究（Ⅱ）[J].新疆大学学报（自然科学版），2010（1）：106-112，116.

[3]玉素甫·艾白都拉，张海军，艾孜尔古丽.信息处理用现代维吾尔语词干词类标记集研究[J].信息技术与标准化，2011（6）：45-48，63.

[4]国家标准行业标准信息服务网.（GB/T 36337—2018）信息处理用藏语词类标记集[EB/OL].（2018-06-07）[2019-10-10].http：//www.zbgb.org/2/StandardDetail4181429.htm.

[5]国家标准行业标准信息服务网.（GB/T 36452—2018）信息处理用藏文分词规范[EB/OL].（2018-06-07）[2019-10-10].http：//www.zbgb.org/2/StandardDetail4181573.htm.

[6]李博涵，刘汇丹，龙从军，等.基于深度学习的藏文分词方法[J].计算机工程与设计，2018（1）：194-198.

[7]赵小兵.构建《蒙古语及三少数民族语言语料库资源管理平台》[C].西双版纳：全国民族语言文字信息学术研讨会，2007.

[8]徐健.维吾尔语语音语料库管理平台的研究与实现[D].乌鲁木齐：新疆大学，2018.

[9]买吾浪江·艾依提.维吾尔中介语语料库管理系统建设及自动标注技术研究[D].乌鲁木齐：新疆农业大学，2016.

Abstract：The corpus is the basis of natural language processing， especially in the trend of applications such as machine translation and speech recognition. It is important to build high quality， massive， standardized corpus. Since the 1980s and 1990s， the construction of the national corpus has achieved many achievements. This paper analysis the research status of the national corpus， focusing on the Mongolian， Uyghur and Tibetan corpus. And then， this paper puts forward some suggestions for the problems existing in the construction of national corpus， so as to provide reference for other ethnic minorities to build national corpus.

Key words：minority nationality language; corpus construction; Mongolian; Uyghur; Tibetan