当前位置:首页 期刊杂志

多方对话角色关系语料库构建工具的设计与开发

时间:2024-05-04

王仪琳 蒋玉茹 湛宇航 王玫匀

(北京信息科技大学计算机学院 北京市 100101)

随着人工智能与大数据的发展,大量的有效信息隐藏于互联网海量数据中,很多工作都需要从文本中挖掘其中蕴含的实体关系。人机对话系统领域内涉及的语义角色标注是近年来人工智能研究的热点[1],而多方对话的研究刚刚起步。多方对话文本作为一种特殊的文档形式,发言人之间的交互错综复杂,存在大量的跨句关系,而且还存在大量的省略与指代信息。

为了进行多方对话文本自动理解工作,首要的是构建一定规模的语料库资源。在语料库角色构建平台的研究中,周彬彬[2]所构建的标注系统较完备,但仅针对军事性语料,相比之下,夏琦[3]所开发的角色标注系统考虑到了对话文本语料,但结果并不理想,因此,面向多方对话文本中的角色关系挖掘工作,开发具有普适性的适应多种语言的多方对话角色构建工具势在必行。

本项目分析角色关系标注的需求,设计并开发了一个便于用户通过阅读语料文本直接进行角色关系标注的工具。既满足了基本的标注需求,又一定程度上实现了相关数据的实时可视化。同时具有比较好的实用性和可操作性,也考虑到了王俊福[4]提出的标注中多用户同时协作时的并发问题,且适用于不同语言类型的对话文本语料。

一个好的标注工具可以提高标注者的工作效率,设计良好的标注系统界面和简单的标注操作可以降低标注者们进行标注工作的难度,并且降低标注工作的枯燥程度。本文也考虑到了上述情感因素,在开发工具的时候进行了相应美观设计。

1 功能需求

本文将角色关系标注分为角色指代标注和关系标注两个子功能。图1为本工具的模块结构图。

图1:多方对话角色关系语料库构建工具模块结构图

1.1 角色指代标注

用户在对话文本中选取提及词(人物的称呼),并与该提及词所对应的角色进行关联,完成角色指代标注。

(1)用户选择单元和场景,系统界面显示相应的对话文本。

(2)用户选中对话文本中的提及词,然后选择左侧相对应的角色实体,完成一次角色标注。若左侧无所标注提及词对应的角色实体,应选择其他,再根据弹窗键入定义的实体中文名称即可。

(3)标注完一个场景,提交结果,标注结果存入后端数据库。

(4)同一场景在未点击提交前标注内容可以修改更新,但点击提交结果后不可再进行修改。

1.2 角色关系标注

用户通过阅读对话文本,从文本中找到所有出场人物之间的关系,通过添加栏加入进图数据库,完成角色关系的标注。

(1)可以添加实体名称和实体类型。

(2)通过选择两个角色实体及二者之间的关系类型进行角色关系的添加或删除操作。

(3)系统为新添加的角色关系增加时间戳,以记录同一对角色不同时期关系的变化。

(4)可以通过输入一个角色实体的名称查询以该角色实体为中心的角色关系图。

2 架构

本工具使用B/S(Browser/Server)架构,前端部分主要实现语料显示、在线标注和关系图可视化等功能。后端部分主要存储用户所标注的角色和关系数据,以实现数据的持久化。具体而言,本工具前端使用Bootstrap开源框架,后端使用Flask框架和Django框架,角色指代标注的结果以JSON文件形式存储,角色关系标注的结果存入Neo4j数据库。

3 页面设计

3.1 角色指代标注页面设计

如图2所示,为本工具设计并实现的角色指代标注页面。

图2:角色标注页面

(1)标注文本选取。利用页面右上方工具条选择标注内容。

(2)标注文本展示。页面右下方为标注内容展示区。主要展示说话人和说话内容。说话内容经过分词后展示。

(3)角色列表展示。页面左侧列出语料中出现的主要角色名称,其他人物名称用户标注的时候需单独标出。

3.2 角色关系标注页面设计

如图3所示,为本工具设计并实现的角色关系标注页面。其中标注文本选取和标注文本展示与3.1节角色标注页面相同。此外,还有:

图3:角色关系标注页面

(1)知识图谱展示部分。利用页面左上方,将已标注的角色关系进行可视化展示。

(2)角色关系添加和删除。利用页面左侧中部,根据文本内容,选择角色实体1和角色实体2,再选择他们的关系,然后再点击“添加关系”按钮,将一个角色关系三元组插入知识图谱数据库;或者点击“删除关系”按钮,将角色关系三元组从知识图谱数据库中删除。

(3)角色实体添加和删除。标注过程中遇到之前未曾出现过的角色实体,可以输入实体名称和实体类型,然后进行添加。也可以删除。

(4)实体图查询。输入角色实体名称,点击“查询实体图”,可以在页面左上方显示与该实体相关的知识图谱。

5 总结

本文利用设计并开发了一个面向多方对话角色关系挖掘工作的语料库构建工具,该工具已经应用于课题组的语料标注工作,标注了《我爱我家》剧本120集内容中的出现的角色指代和关系信息。该工作为后续在多方对话文本中进行角色关系自动挖掘研究打下了基础。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!