当前位置:首页 期刊杂志

电子邮件动态分类系统的研究与应用

时间:2024-09-03

王瑛 王勇

(广东工业大学计算机学院)

0 概述

当前,知识和智力资产正在成为企业的竞争优势。知识型企业中,在已知知识上创造新的、复杂的知识的员工正成为主要角色[1],商业决策越来越依靠日常工作中相互交流产生的知识[2-3]。知识管理的概念和方法被企业用来寻求应对这种知识社会的变化[4-6]。尽管管理知识的重要性已被深入认识,但系统的知识管理研究是最近10来年才开始的[7]。许多技术和方法被用于结构化知识,以便有效地管理知识。例如贝叶斯网络(Bayesian Networks),决策树(Decision Trees),神经网络 (Neural Networks),支持向量机(Support Vector Machines),K最近邻方法(K-Nearest Neighbor Approach)等。一些技术方法聚焦在知识搜索领域,另一些方法用于知识的分类[8]。

分类体系(Taxonomy)是一种传统有效的信息分类和管理方法。它包含实体(对象或者标题)、关系、链接、分组、标签和导航等部件,提供信息的搜索、浏览、提示等功能,实现有效的内容管理[9]。分类体系相比较知识库而言,提供了一种结构化的知识管理模式[10-11],其组成要素包括控制词表、元数据和分类目录。由于知识的特性,传统的人工分类及管理知识的方式是一项高智能和耗费时间的工作。动态分类体系(Dynamic Taxonomy)作为一种较好地描述和分类复杂的信息和知识的工具被提出来[12],能够有效地实现对非结构化知识的分类管理。

在企业的商业运作中,电子邮件已成为重要的、不可或缺的交流方式,大量的企业信息和知识蕴含在电子邮件中。本文提出采用动态分类体系的方法,建立一个基于多智能代理架构的电子邮件信息管理自动分类系统,以提升邮件自动分类的效率,促进企业知识的管理和分享,支持企业商业服务工作的开展。

1 体系架构

电子邮件是当前最重要和最广泛应用的通信媒介之一,许多公司已把电子邮件作为企业商业运作的重要智力资产。基于WEB的邮件服务系统提供一种集中式的邮件信息管理模式。基于多智能代理架构的电子邮件信息管理自动分类系统(multi-agent email dynamic taxonomy system,MEDTS),包括4层结构,如图1所示。

1) 邮件代理子系统(email agent system,EAS)是MEDTS的基础子系统,负责电子邮件信息的发送和接收。同时,EAS负责将接收到的电子邮件信息分解为结构化信息,并存入到邮件数据库(mail database,EDB),以便电子邮件信息能够更方便地被管理和使用。需要说明的是,EAS自身并不是一个电子邮件服务器,它通过两个电子邮件代理程序与第三方的电子邮件服务器连接。电子邮件发送代理程序(Sending Agent)负责通过连接SMTP服务器发送电子邮件,接收代理程序(Receiving Agent)则通过POP3服务器从互联网接收电子邮件。MEDTS建立了一个可伸缩的、较灵活的体系结构,支持在互联网和内联网中发送和接收电子邮件。

图1 基于多智能代理架构的电子邮件信息管理自动分类系统体系架构

2) 动态分类子系统(dynamic taxonomy system,DTS)负责将电子邮件中的信息和知识结构化,并构建分类体系,形成知识库。邮件中的实体对象、关系、链接、分组、标签和导航由 DTS识别和抽取,并被保存在知识分类数据库(knowledge taxonomies &inventory,KTI)。DTS提供搜索、浏览、提醒和内容管理等功能,以便员工能快速、可视化地发现有用信息和知识。MEDTS系统提供3种动态分类模式增强对知识的分类、整理和检索等管理能力。

3) 知识审计子系统(knowledge audit system,KAS)提供对企业智力资产的审计服务功能,通过挖掘分析KTI中实体间的关系,可以定位关键人物和社交网络,搜索和分享知识工作的解决方案。智力资产的评估和评价作为企业管理决策的主要任务之一,有助于企业高层对其智力资产的全面掌握,支持企业的商业运作。

4) 知识工作流规划子系统(knowledge workflow planning system,KWPS)构造一个处理知识工作的多代理服务架构,帮助员工在知识工作中可以动态搜索相关的信息和知识,高效地找到所需的专业知识。KWPS 能够规划一个知识工作流,并根据具体需要和目标,配置相应的知识资源。

上述4个子系统构成了MEDTS的4个层次。基于WEB的EAS是基础层;DTS是负责将采集的电子邮件构建为一个动态分类体系,并保存在知识库中;KAS分析和审计基于电子邮件的智力资产,评价知识的价值;审计的结果作为KWPS的运作依据。

2 动态分类模式

一般认为,动态分类体系是使用户可以浏览所有可能的信息分类目录的一种工具,包括观察、交叉联系、混合和匹配目录,例如,邮件信息可被标签和分配到多个目录项中。借助分类体系,用户可以运用其独特的逻辑,自由地创造和组织其知识空间[11]。在MEDTS系统中,设计3种动态分类模式:基于用户定义的分类模式、基于搜索关键字的分类模式和基于多代理机制的动态分类体系模式。前2种模式主要聚焦在如何逻辑地分类大量的信息;第3种模式则通过运用人工智能的文本挖掘和分析技术,动态辨识和生成新的分类体系。

2.1 基于用户定义的动态分类模式

在信息系统中,用户访问管理是一项重要功能。根据用户的角色、职位、部门和其他身份认证,允许合法的访问或禁止非法的访问是主要的应用形式。用户对信息访问的分类视角应根据其角色的不同而不同。

图2给出了企业中3种不同角色的分类视角,包括员工视角、经理视角和CEO视角。经理负责管理员工,在其分类体系中包含员工的目录项;同样,CEO的分类体系中也包括了部门的目录项。

图2 (a) 员工视角

图2 3种不同视角的分类体系

动态分类体系根据用户登录身份构建个性化目录,电子邮件信息被自动分类到相应的目录项中。这种分类模式针对每个用户提供了一个与之关联的有效的分类体系,无用的信息被屏蔽。

2.2 基于搜索关键字的动态分类模式

基于搜索关键字的动态分类模式是通过对输入关键字的理解自动地生成分类体系。系统建立关键字的语义关联模型,根据对关键字的语义分析,调用相关分类体系,形成语义关联的分类架构,以满足用户信息分类检索的一般性习惯。例如,搜索关键字“询价”意味着用户想得到与市场相关的信息,“市场”目录被用来分类搜索结果。类似的,产品的“白皮书”可能意味着用户想得到产品的技术信息。图3提供了市场和技术2种简单的分类体系。

图3 2种分类体系示例

这种分类模式是一个由用户行为驱动的动态和不断演绎的分类体系,是一种根据搜索关键字可以逻辑地组织信息和提供合适的分类目录的模式。它不同于通常的搜索引擎的搜索功能,主要包含着大量的搜索结果的列表,没有信息组织的逻辑结构。当搜索关键字被输入,系统会从控制单词的列表中返回其含义,推断用户的意图,确定相关领域,构建检索结果目录。

2.3 基于多代理机制的动态分类体系模式

考虑到信息和知识的不断增长,新概念、术语和知识在不断产生,动态分类体系应具备持续改进和演绎的能力。本文采用人工智能技术,设计了一种基于多代理机制的动态分类体系模式。

代理(Agent)提供了需要处理大型和复杂问题的抽象,具有自治能力。多代理即建立了多个代理的协同工作机制,智能系统通常采用多代理机制协助用户处理复杂的协同工作。在MEDTS系统中,几个代理被设计成动态分类体系,如图4所示。它们链接在一起构成一个增强系统自学习能力的学习环。系统采用了文本挖掘和基于案例推理的技术。

1) 抽取代理(Extracting Agent)负责从电子邮件中抽取关键字,采用词法分析技术,建立控制词表和词组数据库;

2) 合并代理(Merging Agent)负责将从电子邮件中抽取的关键字合并成关键字队列;

3) 统计代理(Statistics Agent)根据从Merging Agent获得的关键字列表,建立一个关键字的使用频率表;

4) 文字挖掘代理(Word Mining Agent)根据关键字使用频率在一个语义空间中挖掘单词或术语之间的关系,推断一个新的分类体系;

5) CBR代理(CBR Agent)基于案例库中旧的分类体系,进行归纳推理,构成新的分类体系,并提交给用户;

6) 人机交互代理(Human-Machine Interface Agent)建立人机交互,由用户确定产生一个新的分类体系;

7) CBR存储代理(CBR Storing Agent)负责存储新的分类体系模式,并保存到案例库中。

3 文本分类算法

在MEDTS系统中,文本分类算法是关键技术。本系统建立训练学习机制,构建分类体系的每个目录项的特征向量,通过词法分析与特征提取,构建电子邮件的特征向量,再采用文本相似度计算,以此判定电子邮件的分类目录项。

定义1:电子邮件的特征向量为w

w =

其中,wn为词表中第n个词的权重;n为词表中词组的总数量。

定义2:wi权重为p

p =P/W

其中,P为第i个词在邮件中出现的次数;W为邮件中所包含的词表中所有词的出现次数的总和。

图4 基于多代理机制的DTS工作模式

分类体系中每个目录项的特征向量由训练集中所属电子邮件的特征值整合而成,即对包含的所有电子邮件的特征向量做简单的平均计算而成。

定义3:分类目录项的特征向量为s

其中,wij为词表中第i个词在分类目录项所包含的所有邮件中第j篇邮件的特征向量的权重;m为该分类目录项中所包含邮件的总数量。

本文采用欧式距离为相似度计算算法。

定义4:分类相似度为µ

其中,wi为电子邮件的特征向量的第i个分量值;si为分类目录项的特征向量的第i个分量值。

通过限定一定的阀值,依据相似度计算结果,可判定电子邮件是否属于某个特定的分类目录项。本系统选择的阀值为0.7。

4 案例分析

本文研发的MEDTS系统已在一家总部设于香港的电子有限公司运行。该公司主要经营电子元器件,为客户提供电子元器件的整体解决方案。公司大量的信息和知识来源于员工与供应商之间电子邮件的交流和沟通。传统方式是:每个员工的电子邮件都封闭在其专有的账户内,员工内部的信息交流也依靠简单的邮件转发实现,造成了信息冗余;成功的解决方案未能得到及时分享和应用,已有的邮件转发模式不能有效地管理不断增长的大量电子邮件信息,不利于企业知识的检索和应用。

MEDTS系统是一个基于WEB模式的应用系统,可以嵌入传统的电子邮件系统,MEDTS系统的网络拓扑结构如图5所示。它从电子邮件服务器接收邮件并存储到一个单一中心的动态分类体系中。员工通过个人电脑上的浏览器可浏览完整的动态分类体系。通过集中式的信息管理模式,可以方便地对全公司的电子邮件信息进行检索,也能有效地支持信息的分享应用。同时,提供发送电子邮件的功能,使员工可仅仅使用MEDTS系统执行基于电子邮件的知识工作。

图5 MEDTS系统的网络拓扑结构

图6给出根据用户角色提供的个人分类目录的界面;图7为输入搜索关键字界面;图8为根据输入的搜索关键字关联的领域形成的搜索结果界面;图9为基于多代理机制的动态分类体系系统界面。

目前,该公司所有员工可以在MEDTS系统中发送和接收电子邮件,所有邮件信息被保存在一个中央数据库中,通过安全授权机制,可以便捷地浏览所有邮件信息和解决方案知识,方便实现信息的共享与学习,有效地支持企业的商业运营工作。

图6 电子邮件浏览界面

图7 关键字搜索界面

图8 搜索结果显示界面

图9 动态分类体系界面

5 结论

动态分类体系正在成为知识管理的有效方法。基于动态分类体系的3种模式为知识工作者提供了良好的信息和知识组织管理工具。MEDTS系统提供了基于电子邮件的知识工作支持,使知识工作者可以方便地从电子邮件的分类体系逻辑中浏览和学习有用的信息,构成知识协同工作的基础。今后,3种动态分类体系模式需要更深入的研究和开发智能功能,知识审计和知识工作流支持系统也将被深入研发。

[1] Drucker P F. The age of social transformation[J]. The Atlantic Monthly, 1994,274(5):53-80.

[2] Drucker P F. Managing in turbulent times[M]. London:Heinemann, 1980.

[3] Fred Nickols. Shift to knowledge work yearbook of knowledge management [M]. Butterworth-Heinemann, 2000.

[4] Sheila Corrall. Are we in the knowledge management business[J]. Adriad, 18. URL: http://www.ariadne.ac.uk/ issue18/knowledge-mgt / (available: Dec., 1998).

[5] Yogesh Malhora. Knowledge management for the new world of business[J]. Journal for Quality & Participation special issue on Learning and Information Management, 1998, 21(4):58-60.

[6] Prusak L. Where did knowledge management[J]. IBM Systems Journal, 2001, 40(4):1002-1007.

[7] Karl M Wiig. Knowledge Management: Where did it come from and where will It go[J]. Expert Systems With Applications, 1997,13(1) :1-14.

[8] Sebastiani F. Machine learning in automated text categorization.Technical[R]. ACM Computing Surveys, March 2002, 34(1):1-47.

[9] Steve Blake. Lecture note on taxonomies masterclass[M].Arkgroup, 2002.

[10] Susan Conway, Char Sligar. Unlocking Knowledge Assets[R].Microsoft Press, 2002.

[11] Scott Spangler, Jeffrey Kreulen. Interactive methods for taxonomy editing and validation[C]. The Proceedings of CIKM’02, URL: http://www.almaden.ibm.com/software/km/eClassifier/cikm2002.pdf, 2002.

[12] Sacco G. Dynamic taxonomies: a model for large information base[J]. IEEE Transaction On Knowledge & Data Engineering, 2000(12):68-479.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!