当前位置:首页 期刊杂志

概念格共有与独有属性(对象)的关系研究*

时间:2024-05-04

闫梦宇,李金海+

1.昆明理工大学 数据科学研究中心,昆明 650500

2.昆明理工大学 理学院,昆明 650500

1 引言

形式概念分析是德国数学家Wille[1]于1982年提出的,它以形式背景为研究对象,研究对象、属性及其层次关系的理论,提供了一种与传统数据分析和知识表示完全不同的方法。目前,形式概念分析在数据挖掘[2-3]、信息处理[4]、软件工程[5-6]、可视化[7-8]、在线分析[9]等领域得到了广泛应用。

众所周知,形式背景的属性分析是形式概念分析理论中的基本问题。截止目前,已有许多学者基于Wille概念格对属性分析进行了研究。如,张文修等[10]通过格同构思想建立了概念格约简理论,利用属性与约简之间的内在联系将其区分为三类:绝对必要属性、相对必要属性和绝对不必要属性。这种区分属性类型的思想随后得到了其他学者的广泛重视,原因是它有助于约简计算与数据分析。洪文学等[11]在构建偏序结构图的过程中,引入了“最大共有属性”“共有属性”和“独有属性”等概念,在此基础上尝试实现大规模数据分析。张涛等[12-13]借助所谓的“顶层属性”“过渡属性”“底层属性”和“伴生属性”快速计算Wille概念格,其原理是从属性视角出发挖掘数据之间的潜在有用结构关系,并加以充分利用,以避免生成概念的过程中数据被反复低效访问。

在形式概念分析中,Wille概念格、面向对象概念格和面向属性概念格均可用于数据分析。尽管人们对这些数据分析方法有了一定的了解,如Wille概念格是基于属性和对象之间的共同拥有关系提出的,而面向对象概念格和面向属性概念格是将粗糙集理论中的上、下近似思想引入形式背景建立的[14-15],且面向对象概念格和面向属性概念格在约简方面存在密切联系[16]。然而,这些数据分析方法之间的差异尚不完全清楚。考虑到现有的很多工作已表明属性分析有助于认识概念层次结构[10-13],因此从属性分析角度探讨概念格数据分析方法的异同是一种可行的做法。

鉴于上述讨论,本文基于Wille概念格、面向对象概念格和面向属性概念格定义了共有属性(对象)与独有属性(对象),并指出Wille概念格可用于共有属性(对象)的数据分析,而面向对象概念格和面向属性概念格可用于独有属性(对象)的数据分析。在此基础上,讨论了共有属性(对象)与独有属性(对象)的相互关系,有关结果有助于揭示概念格数据分析方法之间的异同。

2 共有、独有属性与对象的概念

一个形式背景可表示为三元组(U,A,I),其中U是对象集,A是属性集,I是笛卡尔积U×A上的二元关系。为了方便,记(x,a)∈I表示对象x拥有属性a。

本文默认所有讨论的形式背景均是正则的[10],即不存在空关系的行和列,也不存在满关系的行和列。

Wille在形式背景(U,A,I)上定义了概念诱导算子:

定义1[1]给定形式背景(U,A,I),对于X⊆U,B⊆A,如果X↑=B且B↓=X,则称序对 (X,B)为形式概念。其中X称为概念的外延,B称为概念的内涵。

定义2(共有属性) 给定形式背景(U,A,I),对于X⊆U,如果a∈A满足:则称a是对象集X的共有属性。为了方便,记对象集X的所有共有属性组成的集合为Xg。

类似地,可以在形式背景中引入一个属性集的共有对象。不妨记属性集B的所有共有对象组成的集合为Bg。

性质1给定形式背景(U,A,I),对于对象集X⊆U,有Xg=X↑,Bg=B↓。

由性质1可知,Wille概念可以理解为是基于共有属性(对象)分析构建的。

Yao[14],Düntsch和Gediga[15]在形式背景 (U,A,I)上给出了另外两种概念诱导算子:

其中,Ia表示与属性a有关系的所有对象,xI表示与对象x有关系的所有属性。由于本文讨论的形式背景均是正则的,因此Ia和xI都是非空的。

更多有关以上三种概念诱导算子的讨论可参见文献[17],在此不再赘述。

定义3[14]给定形式背景(U,A,I),对于X⊆U,B⊆A,如果X□=B且B◇=X,则称序对(X,B)为面向对象概念。其中X称为面向对象概念的外延,B称为面向对象概念的内涵。

定义4(独有属性)给定形式背景(U,A,I),对于对象集X⊆U,如果a∈A满足:存在x∈X,(x,a)∈I,且不存在,则称a是对象集X的独有属性。为了方便,记对象集X的所有独有属性组成的集合为Xd。

类似地,可以在形式背景中引入一个属性集的独有对象。不妨记属性集B的所有独有对象组成的集合为Bd。

性质2给定形式背景(U,A,I),对于X⊆U,B⊆A,有。

证明对于任意a∈Xd,由定义4可知,存在x∈X使得 (x,a)∈I,且不存在使得 (y,a)∈I。因此,与属性a有关系的对象都来自于对象集X,故有Ia⊆X,即a∈X□。

反之,对于任意a∈X□,有Ia⊆X成立,故不存在使得 (y,a)∈I。另一方面,由于Ia非空,且Ia⊆X,存在x∈X使得(x,a)∈I。因此,a∈Xd。

综上可得,Xd=X□。

由性质2可知,面向对象概念可以理解为是基于独有属性(对象)分析构建的。

定义5[15]给定形式背景 (U,A,I),对于X⊆U,B⊆A,如果X◇=B且B□=X,则称序对(X,B)为面向属性概念。其中X称为面向属性概念的外延,B称为面向属性概念的内涵。

性质3给定形式背景(U,A,I),对于X⊆U,B⊆A,有。

性质3可类似于性质2进行证明,在此省略。

由性质3可知,面向属性概念也可以理解为是基于独有属性(对象)分析构建的。

3 共有、独有属性与对象的性质

性质4设(U,A,I)为形式背景,任意X,X1,X2⊆U,B,B1,B2⊆A,则共有属性与对象有以下性质:

证明由性质1,再结合Wille概念格的性质,即可得证。

性质5设(U,A,I)为形式背景,任意X,X1,X2⊆U,B,B1,B2⊆A,则独有属性与对象有以下性质:

证明只证(1)、(2)、(3)、(4),其余性质可类似得到。

(1)由性质2可知:

又因为:

因此,Ia⊆X2。从而,。

(2)由性质2可得:

又因为:

(3)由性质2和性质3可知:

(4)由性质2可知:

则对任意b∈B,Ib中的对象一定拥有属性b,故对任意x∈Ib有:

3.3.2 其他个体因素 除性别外,有研究发现年龄、职业和文化程度等对配偶间HIV传播也会产生影响[20,27]。

4 概念格共有与独有属性(对象)的关系

本章针对命题:共有属性(对象)是独有属性(对象),讨论其充分性、必要性以及充分必要性是否成立。

4.1 命题充分条件不成立

性质6给定形式背景(U,A,I),对于X⊆U,如果a∈Xg,则a∈Xd不成立。

证明注意到a∈Xg,只是下列条件成立:

而a∈Xd则要求满足:

存在x∈X,(x,a)∈I,且不存在显然不存在使得(x,a)∈I这个条件未必成立,命题得证。 □

性质7给定形式背景(U,A,I),对于B⊆A,如果a∈Bg,则a∈Bd不成立。

性质7可类似于性质6证得,在此省略。

下面,通过一个实例表明性质6和性质7的存在性,以方便理解。

例1表1是一个形式背景,其中对象x1、x2、x3、x4、x5、x6、x7、x8分别代表学生甲、乙、丙、丁、戊、己、庚、辛,属性是有关研究生考试面试环节的各项要求,其中a1、a2、a3、a4、a5、a6、a7、a8分别代表四级通过、六级通过、计算机二级通过、本科学习成绩优秀、愿意继续读博、心态平和、有特长和适应能力强。对象xi(i=1,2,…,8)拥有属性aj(j=1,2,…,8)在表中对应交叉位置标记为1,对象不拥有属性在表中对应交叉位置标记为0。

Table 1 Formal context(U,A,I)表1 形式背景(U,A,I)

由表1,易计算得到:

设X={x3,x4,x5},Xg={a3,a6,a7,a8}表示学生丙丁戊的共有属性为计算机二级通过、心态平和、有特长和适应能力强;但Xd={a4,a6}表示学生丙丁戊的独有属性为本科学习成绩优秀和心态平和。属性计算机二级通过、有特长和适应能力强虽然是学生丙丁戊共同拥有,但是从表1中可以看出学生乙己庚辛也拥有属性计算机二级通过;学生甲庚辛也拥有属性有特长;学生甲己庚辛也拥有属性适应能力强;因此计算机二级通过、有特长和适应能力强不是学生丙丁戊的独有属性。综上可知共有属性未必是独有属性。

设B={a1,a3,a6,a7,a8},Bg={x3,x4}表示属性四级通过、计算机二级通过、心态平和、有特长和适应能力强的共有对象为学生丙丁;但是Bd={x3,x8}表示属性四级通过、计算机二级通过、心态平和、有特长和适应能力强的独有对象为学生丙辛。学生丁虽然拥有属性四级通过、计算机二级通过、心态平和、有特长和适应能力强,但其还拥有属性本科学习成绩优秀,因此学生丁并不是属性四级通过、计算机二级通过、心态平和、有特长和适应能力强的独有对象。综上可知,共有对象也未必是独有对象。

4.2 命题必要条件不成立

性质8给定形式背景(U,A,I),对于X⊆U,如果a∈Xd,则a∈Xg不成立。

证明注意到a∈Xd,只是下列条件成立:

存在x∈X,(x,a)∈I,且不存在而a∈Xg则要求满足:

比较上述条件,易知独有属性不一定就是共有属性,因为独有属性是X拥有而不拥有的属性,而共有属性是X拥有同时也可以拥有的属性。

性质9给定形式背景(U,A,I),对于B⊆A,如果a∈Bd,则a∈Bg不成立。

性质9可类似于性质8证得,在此省略。

下面,通过一个实例表明性质8和性质9的存在性,以方便理解。

例2继续以表1为分析对象进行讨论。设X={x3,x4,x5},那么Xd={a4,a6}表示学生丙丁戊的独有属性为本科学习成绩优秀和心态平和;但Xg={a3,a6,a7,a8}表示学生丙丁戊的共有属性为计算机二级通过、心态平和、有特长和适应能力强。属性本科学习成绩优秀因为只被学生丁拥有,学生丙戊并不拥有此属性,因此属性本科学习成绩优秀不是学生丙丁戊的共有属性。综上可知,独有属性未必是共有属性。

设B={a1,a3,a6,a7,a8},Bd={x3,x8}表示属性四级通过、计算机二级通过、心态平和、有特长和适应能力强的独有对象为学生丙辛;但Bg={x3,x4}表示属性四级通过、计算机二级通过、心态平和、有特长和适应能力强的共有对象为丙丁。学生辛是属性四级通过、计算机二级通过、心态平和、有特长和适应能力强的独有对象,但其并不拥有属性集B中的心态平和属性,因此学生辛不是属性四级通过、计算机二级通过、心态平和、有特长和适应能力强的共有对象。综上可知,独有对象也未必是共有对象。

4.3 命题充要条件成立的附加条件

通过上述讨论可知,命题“共有属性(对象)是独有属性(对象)”的充分条件和必要条件均不成立。因此,给出该命题充要条件成立的附加条件,是非常有意义的。

定理1(原命题充要条件成立的附加条件) 给定形式背景(U,A,I),X⊆U,B⊆A,且满足:

则Xg=Xd=B。

证明已知:

故:

另一方面,对于任意a∈B,由于(U,A,I)是正则的,因此存在x0∈X使得(x0,a)∈I,再结合:

反之,对于任意的a∈Xd,如果a∉B,那么,根据:

可得 ∀x∈X,(x,a)∉I,这与存在x∈X使得 (x,a)∈I矛盾,因此假设不成立,原命题a∈B正确,故:

综上可得,Xd=B,因此Xg=Xd=B。 □

定理2(原命题充要条件成立的附加条件) 给定形式背景(U,A,I),X⊆U,B⊆A,且满足:

则Bg=Bd=X。

定理2可类似于定理1证得,在此省略。

下面,通过一个实例说明上述两个定理,以方便理解。

例3表2是一个形式背景(U,A,I1),其中对象x1、x2、x3、x4、x5、x6、x7、x8与例1相同,属性a1、a2、a3、a4、a5、a6、a7、a8也与例1相同,但是对象和属性之间的关系I1与例1不同,具体见表2。

由表2,易计算得到:

根据定理1,令X={x1,x3,x4,x5},由表2可以看出X满足定理1,那么Xg={a1,a3,a6}表示学生甲丙丁戊共有属性为四级通过、计算机二级通过和心态平和,可以看出属性四级通过、计算机二级通过和心态平和只有学生甲丙丁戊拥有,而其他学生不拥有;Xd={a1,a3,a6}表示只有甲丙丁戊拥有属性四级通过、计算机二级通过和心态平和,满足Xg=Xd,即共有属性是独有属性;同样可以得到独有属性是共有属性。总之,此处共有属性即独有属性,独有属性也是共有属性。同理,对于Xg=B={a1,a3,a6},Bg=Bd={x1,x3,x4,x5}也满足定理2,因此可得共有对象即独有对象,独有对象也是共有对象。综上所述,满足定理1可以得到命题的充要条件成立。

Table 2 Formal context(U,A,I1)表2 形式背景(U,A,I1)

根据定理2,令B={a1,a3,a6},由表2可以看出B满足定理2,那么Bg={x1,x3,x4,x5}表示共同拥有属性四级通过、计算机二级通过和心态平和的学生是甲丙丁戊,可以看出学生甲丙丁戊只拥有属性四级通过、计算机二级通过和心态平和,而不拥有其他属性;Bd={x1,x3,x4,x5}表示只拥有属性四级通过、计算机二级通过和心态平和的学生为甲丙丁戊,满足Bg=Bd,即共有对象即独有对象;同样的,也可以得到独有对象是共有对象。总之,这里共有对象即独有对象,独有对象也是共有对象。同理,对于X={x1,x3,x4,x5},Xg=Xd={a1,a3,a6},也满足定理1,因此可以得到共有属性即独有属性,独有属性也是共有属性。综上所述,满足定理2可以得到命题的充要条件成立。

由上述讨论可得:共有属性是独有属性的充要条件,与共有对象是独有对象的充要条件是完全相同的,即下列定理成立。

定理3(原命题充要条件成立的附加条件) 给定形式背景(U,A,I),X⊆U,B⊆A,则共有属性是独有属性的充要条件,以及共有对象是独有对象的充要条件均为:

实际上,上述三个约束条件的直观意义非常明确。具体地,第一个表示X×B区域均是数字“1”填充,第二个表示X×B区域之外不再增加列方向的数字“1”,第三个表示X×B区域之外不再增加行方向的数字“1”。换言之,X×B区域相对于数字“1”填充问题是不可扩充的。

4.4 命题充要条件下的性质

性质10给定形式背景(U,A,I),若存在X⊆U满足Xg=Xd,则不存在X1⊂X(或X1⊃X)使得;类似地,若存在B⊆A满足Bg=Bd,则不存在B1⊂B(或B1⊃B)使得。

证明如果Xg=Xd=B,下证不存在X1⊂X(或X1⊃X)使得:

(1)假设存在X1⊂X,满足,则:

(2)假设存在X1⊃X,满足,则:

由定理1条件可知,此时不满足Xg=Xd=B,与假设矛盾,所以原命题正确。

同理可证:若存在B⊆A满足Bg=Bd,则不存在B1⊂B(或B1⊃B)使得。 □

由性质10可知,在一个形式背景中若存在对象集X和属性集B满足Xg=Xd或Bg=Bd,那么在概念序关系意义下,此对象集X和属性集B是唯一的。换言之,在形式背景中若存在对象集X和属性集B满足Xg=Xd或Bg=Bd,那么不可能存在其真子集或者覆盖集也满足共有即独有。

下面,通过一个实例说明性质10,以方便理解。

例4表3是一个形式背景(U,A,I2),其中对象x1、x2、x3、x4、x5、x6、x7、x8与例1相同,属性a1、a2、a3、a4、a5、a6、a7、a8也与例1相同,但是对象和属性之间的关系I2与例1不同,具体见表3。

Table 3 Formal context(U,A,I2)表3 形式背景(U,A,I2)

由表3,易计算得到:

通过表3以及定理3可得:

(1)当X={x1,x2,x3}时,Xg=Xd={a1,a2,a3};当X={x4,x5,x6}时 ,Xg=Xd={a4,a5,a6};当X={x7,x8}时 ,Xg=Xd={a7,a8}。显然三个对象集之间无序关系。

(2)当B={a1,a2,a3}时,Bg=Bd={x1,x2,x3};当B={a4,a5,a6}时,Bg=Bd={x4,x5,x6};当B={a7,a8},Bg=Bd={x7,x8}。显然这三个属性集之间也无序关系。

对于上述三个对象集,以其中一个X={x1,x2,x3}为例,需要分两种情况进行分析;第一种情况是对其真子集逐一分析;第二种情况是对其覆盖集逐一分析。这里只分析每种情况下的一个集合,其余可类似得出。当X1={x1,x2},显然X1⊂X,此时,但,因此;当X1={x1,x2,x3,x4}时,显然X1⊃X,此时,但,因此。

对于上述三个属性集,以B={a1,a2,a3}为例,同理需要分两种情况考虑,这里只分析每种情况下的一个集合。当B1={a1,a2}时,显然B1⊂B,此时,但,因此;当B1={a1,a2,a3,a4}时,此时,但,因此。

此外,可以继续讨论表3中的形式概念、面向对象概念以及面向属性概念。根据定义1、定义3和定义 5可知,形式概念为 (x1x2x3,a1a2a3),(x4x5x6,a4a5a6),(x7x8,a7a8)。面向对象概念为 (x1x2x3,a1a2a3),(x4x5x6,a4a5a6),(x7x8,a7a8)。面向属性概念为 (x1x2x3,a1a2a3),(x4x5x6,a4a5a6),(x7x8,a7a8)。因此可以得出形式概念、面向对象概念和面向属性概念是完全相同的。

最后,需要指出的是,从概念认知角度而言,当充要条件成立时,共有属性(对象)与独有属性(对象)的概念认知趋同,即既是共有属性(对象)又是独有属性(对象)的概念会产生完全相同的认知结果。而且,例4进一步表明,在特定的数据环境下,这两种概念认知层次结构也完全相同(不考虑空概念和满概念)。该结论对于基于共有属性(对象)和独有属性(对象)的概念认知研究是有参考意义的。

5 结束语

本文研究了概念格共有属性(对象)和独有属性(对象)之间的关系。具体地,在Wille概念格、面向对象概念格以及面向属性概念格的基础上,引入了共有属性、共有对象、独有属性、独有对象等概念,并围绕共有属性(对象)是否是独有属性(对象)展开了详细讨论,得到了一些有用的性质。

从属性类型的角度而言,面向对象概念格和面向属性概念格数据分析方法事实上是等价的。因此,Wille概念格、面向对象概念格和面向属性概念格是两种类型的数据分析方法。同时,本文的性质表明,这两种数据分析方法虽然是迥异的,但是在某些特定条件时,它们也可以是等价的。

今后,可以继续探讨基于共有属性(对象)和独有属性(对象)建立更加一般的概念格数据分析方法,即基于概念诱导算子Bg、Xg、Bd、Xd,直接构建对象幂集与属性幂集之间的伽罗瓦连接,得到广义的概念格数据分析方法。这将是一个非常有前景的研究方向,因为这些概念诱导算子的认知语义是非常明确的,有助于概念认知学习的研究与发展[18]。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!