当前位置:首页 期刊杂志

基于知识元模型的跨模态聊天卡通表情图像合成

时间:2024-09-03

李小瑞,谢 诚,李 宾,柳 青,胡健龙

基于知识元模型的跨模态聊天卡通表情图像合成

李小瑞,谢 诚,李 宾,柳 青,胡健龙

(云南大学软件学院,云南 昆明 650500)

传统的聊天卡通表情图像生成技术主要基于预定义的聊天卡通表情图像库,通过用户的语义描述,进行“语义-视觉”跨模态检索,匹配合适的表情图像。但是,预定义表情图像库样本数量有限且是固定形式的,在实际的聊天场景中常常出现表情图像的错误匹配或无合适匹配。针对此问题,聚焦于合成新的聊天卡通表情图像而非检索,设计了一种基于知识元模型的跨模态聊天卡通表情图像合成方法,根据用户的语义描述,即时合成对应的聊天卡通表情图像。通过表情知识元模型建立聊天卡通表情图像的内在语义逻辑关系,增强聊天卡通表情图像合成的语义一致性。通过多生成器模型,从每个元知识点合成对应的局部图像,再经过联合生成器整合为完整的卡通表情图像,极大地减少了训练样本需求。在公开的聊天卡通表情图像合成数据集的测试中,该方法在语义一致性上取得了更好的结果,同时在图像质量上与现有的方法具有可比性。

图像生成;跨模态学习;文本合成图像(T2I);知识元模型;图像表情包

互联网聊天表情图像合成是“语义-视觉”跨模态图像生成[1]领域的一种典型应用,即用户可以通过语音或文字表达一个自己所期望的动画表情,模型可以根据语音或描述中的语义信息,针对性地合成出与所表达语义高度契合的卡通图像表情。这种合成而非搜索式的“语义-视觉”映射方法,能够显著地提高聊天表情图像合成的即时性、准确性和上下文符合性,在计算机语义-视觉融合领域具有重要的研究意义和应用价值。

现有的聊天表情图像主要通过“语义-视觉”匹配的方式生成,如百度输入法表情、搜狗输入法表情、facemoji等,在预定义的表情库中,匹配最符合语义描述的表情图像,并嵌入文字描述。但由于预定义表情库中的图像是静态且有限的,难以完全符合聊天场景中的上下文语义,无法满足当今社交聊天[2]的需求。随着图像合成技术[3]的不断发展,目前已有研究采用生成对抗网络(generative adversarial networks,GAN)[4]进行“语义-视觉”的图像合成,能够合成高质量的、符合一定语义上下文的图像,是目前聊天表情图像合成的一种可行技术方向。

然而,改进后的GAN进行“语义-视觉”的跨模态图像合成,在语义一致性、训练样本需求上仍具挑战,无法直接运用于需要高度语义一致的表情图像合成任务中。近期的研究中,StackGAN[5],StackGAN++[6],AttnGAN[7],MirrorGAN[8]扩展了传统的GAN,能够实现“语义-视觉”的图像合成。虽然此类方法能够合成较高纹理质量的图像,但图像的语义一致性并不理想,难以应用在注重语义一致性的表情图像合成任务中。此外,现有的GAN对每个类都需求大量的训练样本,而表情图像主要以卡通线条为主,每种类别并没有足够的训练样本,现有的方法难以直接运用。

针对此问题,本文设计了一种基于知识元模型的跨模态表情图像合成模型。通过表情知识元模型建立表情图像的内在语义逻辑关系,增强表情图像合成的语义一致性。通过多生成器模型,从每个元知识点合成对应的局部图像,再经过联合生成器整合为完整的表情图像,极大地减少了训练样本需求。在公开的表情图像合成数据集的测试中,本文提出的基于知识元模型的跨模态表情图像合成模型在语义一致性上取得了更好的结果,且在图像质量上与现有的方法具有可比性。

1 相关工作

根据自然语言描述自动生成图像(text to image)是艺术生成和计算机辅助设计等多种应用中的一个基本问题。随着深度学习技术的出现,该方面的研究已取得了显著的进展[5-15]。本文的表情图像合成是图像生成任务中文本到图像生成的一大应用。

1.1 图像生成任务研究进展

图像生成任务包括图像到图像、文本到图像。在2016年以前,主流的图像生成方法有变分自编码器(variational auto encoder,VAE)[16]和深度递归注意力生成模型(deep recurrent attention writer,DRAW)[17]。VAE通过统计的方法进行建模最大化数据的最小可能性来生成图像,并直接对比原始图像和重建图像的差异,但缺乏类似GAN模型[4]中生成器和判别器的博弈,会趋向于生成模糊的图像。DRAW使用循环神经网络,利用注意力机制,每一步关注一个生成对象,依次生成一个批量以叠加出最终结果。MANSIMOV等[18]提出的AlignDRAW在传统DRAW的基础上加入了文本对齐,同时生成新的图像,其不完全是训练集中出现过的图像,图像质量不可信且精度低。随着2014年GAN被提出,其在图像生成任务上表现出良好的性能,成为图像生成模型的首选之一。

另一方面,图像到图像的生成任务被定义为将一个场景表示转换成另一个场景表示的问题,其目标是通过一组对齐图像对的训练集来学习输入图像和输出图像之间的映射关系。但对于其他许多任务,成对的训练数据较难获得。2017年ZHU等[19]提出的CycleGAN实现了无监督的图像到图像的转换,该模型在没有成对例子的情况下学习将图像从源域转换到目标域的方法。而相较图像到图像的合成,文本到图像合成任务要困难得多,因为文本和图像之间的跨域和跨模态差异比具有不同属性(如风格)的图像之间的差异要大得多。

1.2 视觉语义合成图像研究进展

2016年文献[9]提出了GAN-INT-CLS网络,并首次用GAN的思想完成文本到图像的合成任务。GAN-INT-CLS模型的主干为GAN,在输入中加入文本特征作为生成器和判别器的输入,解决了文本信息的稀疏问题,另在文本特征中使用插值,使得生成的图像更加多样,但最终只能生成64×64的图像。2016年文献[5]扩展了GAN-INT-CLS网络,提出了堆叠生成式对抗网络StackGAN,该模型能基于文本描述生成较真实的图像,使用2个GAN模型分步生成图像。因仅在网络中增加上采样层并不能提升生成图片的质量,所以文献[5]提出了一个分两阶段的GAN网络:第一阶段用于生成低精度(64×64)的图像;第二阶段将第一阶段结果和文本描述作为输入,最终生成了较高分辨率的图像,但该模型不是端到端的训练。2017年文献[6]进一步提出了StackGAN++,将GAN扩充成一个树状的结构,采用了多个生成器和多个鉴别器并行训练,得到不同精度(64×64,128×128,256×256)的图像,低精度生成器输出的隐藏信息,一方面生成低精度图,另一方面作为更高精度生成器的输入;该模型虽能生成比之前精度更高的图像,但该模型输入为整个句子特征,遗漏了更多细粒度的信息,而阻碍了更高精度、更高语义信息的图像生成。2018年,文献[7]提出了一种注意力模型AttnGAN,其相比于StackGAN++[6]增加了注意力机制,不仅提取文本句子特征作为全局约束,同时也将注意力精确到词级提取了词级特征作为局部约束,生成器和鉴别器每次针对词级特征进行部分精准优化,在生成图像不同的子区域时,引导生成器关注不同的单词,从而使得生成图像更突出文本中的细节。其已能生成高质量的图像,也首次评估了图像的语义一致性。2019年,文献[8]提出MirrorGAN,其结合了“全局到局部”的注意力机制和保留语义的文本到图像再到文本的框架,保证文本描述和视觉内容之间的语义一致性。同年,文献[13]提出故事可视化任务,并提出了一个基于序列条件GAN的故事图像序列生成模型StoryGAN,其能根据输入故事中每一个句子生成一张对应的图片;文献[14]提出ReSTGAN,能逐步生成可能的图像,以补充查询中服装的细粒度风格和颜色,旨在帮助顾客可视化服饰的风格和颜色,匹配其“搜索查询关键字”,帮助顾客购买其喜欢的产品。以上2个为文本到图像生成[5-15]任务的应用。

自2016年使用GAN完成图像生成任务以来,生成图像的质量和图像语义性均有很大进展,提出的模型在各大数据集上都表现良好,但极度缺乏应用,且各模型要在大数据集上训练,每个数据集少则几万张,多则几十万张,极大限制了文本生成图像技术在其他方向或领域的拓展应用。

1.3 表情图像合成进展

文本到表情图像合成任务还有待研究。斯坦福大学的PEIRSON和TOLUNAY[20]提出了一个模因生成系统,该系统能为任何图片生成幽默且相关的标题;系统可依赖图片,还可依赖与模因模板相关的用户自定义标签,为用户提供对模因内容的处理。共收集了大约40万张带标签图片或图说图片,其中有2 600个独特的图像-标签对。但该系统仅为表情图片生成标题,类似于图像理解[21-26],并不是真正意义的文本合成表情图像;且目前还没有国内社交用户喜欢的专门的表情图像数据集。因此,提供一个表情图像合成的数据集,实现真正意义的文本合成表情图像,构建一个符合当代社交用户需求的表情图像合成系统势在必行。

2 基于知识元模型的跨模态图像合成

图1为本文设计的基于知识元模型的跨模态表情图像合成模型。第一部分为表情多元知识元模型,以建立表情图像的内在语义逻辑关系;第二部分为基于知识元模型的多生成器,从每个元知识点合成对应的局部图像;第三部分为多生成器联合模型,把多生成器生成的局部图像整合为完整的表情图像。

2.1 表情多元知识元模型

表情知识元模型如图2所示。每张表情图像都被定义为包含13个特征的多元知识图谱,即头型、五官、脸部、头部、嘴巴、衣服、裤子、左手、左拿、右手、右拿、左脚、右脚。

图1 基于知识元模型的跨模态图像合成模型

Fig. 1 Cross-modal image synthesis model based on knowledge meta-model

图2 表情图像多元知识图谱

其中,为第个特征的增广向量,本文为128维。

2.2 基于知识元模型的多生成器

基于知识元模型的多生成器,从每个元知识点合成对应的局部图像,如图1的右上角所示。本文考虑到头型、五官和上半身足够表示一张表情图像,也为了简化模型,采用了三元生成器对表情图像的头型、五官和上半身局部图像进行生成。且每个知识元模型生成器结构相同。

2.3 多生成器联合模型

最后经过多生成器联合模型的生成器生成一张128×128的表情图像。

其中,为真实样本图像;为文本标签数据0和f,在式(5)和(6)中给出。

基于知识元模型的跨模态图像合成模型生成一张完整的表情图像,其是多阶段的,最终的目标函数定义为

3 实验及性能评估

3.1 数据设置

本文基于目前的表情图像合成任务公开了专用数据集(表情图像合成数据集:https://github.com/ fefa/MemeGAN)。该数据集包含了熊猫头和蘑菇头2类用户常用表情图像。从互联网上爬取了14 000张表情图像,去除了模糊和不符合的图像及图中文本,最后获得512张表情图像。其中,每张图片分为6个部分:头型、五官、上半身、下半身、左手和右手,每个部分都有对应的文本标签。为了评估提出的模型,本文还指定了测试集,其包含了70张2类表情图像,每张图片包括5条文本标签,其中只有一条与图片相对应。

3.2 评估指标

本文使用了2个指标评估该模型:首先,FID (Fréchet inception distance)[27]评估生成图像的质量和多样性,分数越低表示生成的图像质量更高和多样性更好。另外,还用R-precision[7]评估生成的图像与对应的文本描述之间的视觉语义相似度。

为了获得R-precision得分,本文专门训练了一个文本语义相似度模型,包括图像编码器和文本编码器2个部分。该模型将文本和图像映射到共同的语义空间,并从文本角度评测生成图像和输入文本的相似度。文本编码器是目前开源的中文词向量模型,以提取语义特征;图像编码器为卷积神经网络(convolutional neural network,CNN),将图像映射到语义向量空间,CNN中间层学习图像块特征,后面层学习图像的全局特征。即图像编码器是在表情图像合成数据集上训练的inception-v3网络[28]。最后,通过添加全连接层将图像特征转到文本特征的公共语义空间。

对于每一张生成的图像,均包含1条真实文本描述和4条从测试集中随机选择的不匹配文本描述的文本描述池。然后计算池中每1条文本特征和生成图像特征的余弦相似度;因测试集只是5条文本描述,所以最后只计算top-1设置下的平均精度,即只有=1时为正确。分数越高,则表示生成的图像与输入文本描述的视觉语义相似性越高。

3.3 结果分析

3.3.1 定量结果分析

将本文提出的表情图像合成模型与传统的文本合成图像模型进行定性和定量的比较,以验证本文模型的有效性。为公平评估,将传统的文本生成图像模型在本文数据集上训练。因数据集中的图像分辨率为130×130,对StackGAN,AttnGAN和MirrorGAN[8]模型的参数进行了调整:StackGAN各阶段生成图像的分辨率依次为64×64,128×128;AttnGAN和MirrorGAN生成图像的分辨率依次为32×32,64×64和128×128。StackGAN1表示StackGAN模型第一阶段,以此类推。基于知识元模型的跨模态表情图像合成模型与其他方法获得的FID分数见表1,分数越低表示生成的图像质量越好,所有模型FID分数取分均值。与传统的文本合成图像模型StackGAN,AttnGAN和MirrorGAN相比,本文模型均取得最好的FID分数177.01分。结果表明,与传统的文本合成图像的模型相比,本文模型更能生成多样化、质量更好的表情图像。

表1 表情图像合成模型与传统的文本合成图像模型在表情图像数据集上的FID分数

注:↓表示越低越好

表2展示了表情图像合成模型与传统的文本合成图像模型在本文数据集上的R-precision[7]的得分。分数越高表示生成的图像与输入的文本有更高的语义相似度。所有得分都取top-1分数均值。

表2 表情图像合成模型与传统的文本合成图像模型在表情图像数据集上的R-precision(↑)top-1分数(%)

注:↑表示越高越好

可以看出,与传统的文本合成图像相比,本文模型生成的图像有更强的语义性。特别说明,AttnGAN3虽然也获得了较高分数,但生成的表情图像各个部分不清晰,不可用。

另外,本文还评估了不同的Learning rate()和多生成器联合模型不同的对整体损失的影响,取值为0.000 1~0.000 5,设置1,2,3,5和10,计算不同和设置下的FID分数,结果如图3所示,展示了500轮结果的均值、最大值和最小值,在为0.000 3、为3的设置下,获得最好的FID(↓)分数。

3.3.2 定性结果分析

基于知识元模型的多生成器生成的局部表情图像如图4所示,可以看出多生成器能准确地生成表情局部图像。表情图像合成模型与StackGAN,AttnGAN和MirrorGAN的主观视觉比较如图5所示,第1行为GroundTruth真实样本,包括文字描述和对应的表情图像。接下来是各模型以真实的样本文字描述为输入,连续生成的5张表情图像。

在实际训练中,随着阶段增加分辨率提高,AttnGAN,MirrorGAN模型生成的图像模糊不清,表明其难以对多个对象和关系进行建模,因此合成包含多个对象的图像比较困难。同3.3.1节所述,因训练集图像分辨率为130×130,为了公平的比较,对StackGAN,AttnGAN和MirrorGAN模型参数进行了调整。本文仅与各模型的最后阶段生成的图像进行比较。可以看出,StackGAN生成的图像比AttnGAN和MirrorGAN视觉效果更好,但生成图片偏离了输入的文本描述。而本文模型生成的图像相比于其他模型,图像质量和语义更接近于真实样本。

图3 模型超参结果分析((a)表情图像合成模型不同的learning rate获得的FID分数;(b)表情图像合成模型不同l获得的R-precision分数)

图4 多生成器生成的局部图像

3.4 实例分析

基于知识元模型的跨模态表情图像合成模型的手机APP原型程序(https://github.com/fesfa/ memeApp)已经设计并开发。该应用程序一共包括表情图像4个模块:语义合成、人脸定制、风格迁移和智能推荐。本文模型运用到表情图像语义合成模块。表情图像语义合成模块用户可以自由输入、提示输入合成表情图片,如图6(a)所示;表情图像人脸定制模块用户需上传个人照片和场景照片,可获得个性化的表情图像,如图6(b)所示;表情图像风格迁移模块用户需上传照片,选择迁移风格,得到风格迁移的表情图像,目前可得到9种类型的表情图像,如图6(c)所示;表情图像智能推荐如图6(d)所示。

图6 原型应用程序((a)语义合成表情图像,文本描述合成表情图像;(b)个性化定制表情图像,定制任意风格的表情图像;(c)风格迁移表情图像;(d)智能推荐表情图像)

4 总结与展望

本文设计了一种基于知识元模型的跨模态表情图像合成方法,即根据用户语义描述,即时合成对应的表情图像。提出通过表情知识元模型建立表情图像的内在语义逻辑关系,有效地提高了合成图像的语义一致性;提出多生成器模型,从元知识点合成局部表情图像,最后经过联合生成器整合局部表情图像为完整的表情图像,整个架构极大地减少了训练样本需求。通过该方法,用户可在复杂的聊天场景中快速获得符合语义的表情图像。解决了以往只能“语义-视觉”跨模态检索获得表情图像的问题。并基于该方法开发了原型应用程序,基于目前的表情图像合成任务公开了专用数据集,为后续的表情图像研究提供了数据支撑。

在后续工作中,将首先拓展生成的表情图像类型,合成多种类的高质量和高语义的表情图像;然后融合图像理解,即在应用程序中,理解用户上下文语义,自动生成下一个符合场景语义的表情图像,这将是一项有趣又有挑战性的工作。

[1] TAIGMAN Y, POLYAK A, WOLF L. Unsupervised cross-domain image generation[EB/OL]. [2021-01-19]. https://arxiv.org/abs/1611.02200.

[2] 王月. 浅析“表情包”兴起的特点及其影响[J]. 传播与版权, 2016(9): 116-117, 124.

WANG Y. Analysis of the characteristics and influence of the rise of emoticons[J].Communication and Copyright , 2016(9): 116-117, 124 (in Chinese).

[3] HUANG H, YU P S, WANG C H. An introduction to image synthesis with generative adversarial nets[EB/OL]. [2021-02-03]. https://arxiv.org/abs/1803.04469v2.

[4] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.

[5] ZHANG H, XU T, LI H S, et al. StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 5908-5916.

[6] ZHANG H, XU T, LI H S, et al. StackGAN++: realistic image synthesis with stacked generative adversarial networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(8): 1947-1962.

[7] XU T, ZHANG P C, HUANG Q Y, et al. AttnGAN: fine-grained text to image generation with attentional generative adversarial networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1316-1324.

[8] QIAO T T, ZHANG J, XU D Q, et al. MirrorGAN: learning text-to-image generation by redescription[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 1505-1514.

[9] REED S, AKATA Z, YAN X Y, et al. Generative adversarial text to image synthesis[C]//The 33rd International Conference on Machine Learning. New York ACM Press, 2016: 1060-1069.

[10] ZHANG Z Z, XIE Y P, YANG L. Photographic text-to-image synthesis with a hierarchically-nested adversarial network[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6199-6208.

[11] LI Y T, GAN Z, SHEN Y L, et al. StoryGAN: a sequential conditional GAN for story visualization[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 6322-6331.

[12] SURYA S, SETLUR A, BISWAS A, et al. ReStGAN: a step towards visually guided shopper experience via text-to-image synthesis[C]//2020 IEEE Winter Conference on Applications of Computer Vision (WACV). New York: IEEE Press, 2020: 1189-1197.

[13] HAN F D, GUERRERO R, PAVLOVIC V. CookGAN: meal image synthesis from ingredients[C]//2020 IEEE Winter Conference on Applications of Computer Vision (WACV). New York: IEEE Press, 2020: 1439-1447.

[14] 孙钰, 李林燕, 叶子寒, 等. 多层次结构生成对抗网络的文本生成图像方法[J]. 计算机应用, 2019, 39(11): 3204-3209.

SUN Y, LI L Y, YE Z H, et al. Text-to-image synthesis method based on multi-level structure generative adversarial networks[J]. Journal of Computer Applications, 2019, 39(11): 3204-3209 (in Chinese).

[15] LI W B, ZHANG P C, ZHANG L, et al. Object-driven text-to-image synthesis via adversarial training[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 12166-12174.

[16] KINGMA D P, WELLING M. Auto-encoding variational bayes[EB/OL]. [2021-01-23]. https://arxiv.org/abs/1312.6114.

[17] GREGOR K, DANIHELKA I, GRAVES A, et al. DRAW: a recurrent neural network for image generation[C]//The 32nd International Conference on Machine Learning. New York: ACM Press, 2015:1462-1471.

[18] MANSIMOV E, PARISOTTO E, BA J L, et al. Generating images from captions with attention[EB/OL]. [2021-03-01]. https://arxiv.org/abs/1511.02793.

[19] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]// 2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 2242-2251.

[20] PEIRSON V A L, TOLUNAY E M. Dank learning: generating memes using deep neural networks[EB/OL]. [2021-03-10]. . https://arxiv.org/abs/1806.04510.

[21] 李学明, 岳贡, 陈光伟. 基于多模态注意力机制的图像理解描述新方法[J]. 电子科技大学学报, 2020, 49(6): 867-874.

LI X M, YUE G, CHEN G W. A novel end-to-end image caption based on multimodal attention[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(6): 867-874 (in Chinese).

[22] 胡丹, 袁东芝, 余卫宇, 等. 一种基于深度残差网络和LSTM的图像理解方法: CN106650813B[P]. 2019-11-15.

HU D, YUAN D Z, YU W Y, et al. Image understanding method based on depth residual error network and LSTM: CN106650813B[P]. 2019-11-15 (in Chinese).

[23] HE X D, DENG L. Deep learning for image-to-text generation: a technical overview[J]. IEEE Signal Processing Magazine, 2017, 34(6): 109-116.

[24] 魏忠钰, 范智昊, 王瑞泽, 等. 从视觉到文本: 图像描述生成的研究进展综述[J]. 中文信息学报, 2020, 34(7): 19-29.

WEI Z Y, FAN Z H, WANG R Z, et al. From vision to text: a brief survey for image captioning[J]. Journal of Chinese Information Processing, 2020, 34(7): 19-29 (in Chinese).

[25] DONG H, ZHANG J Q, MCILWRAITH D, et al. I2T2I: learning text to image synthesis with textual data augmentation[C]//2017 IEEE International Conference on Image Processing (ICIP). New York: IEEE Press, 2017: 2015-2019.

[26] LI S, ZHAO Z, HU R F, et al. Analogical reasoning on Chinese morphological and semantic relations[EB/OL]. [2021-02-19]. https://arxiv.org/abs/1805.06504.

[27] HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scale update rule converge to a Nash equilibrium[EB/OL]. [2021-01-16]. https://arxiv.org/abs/1706. 08500

[28] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 2818-2826.

Cross-modal chat cartoon emoticon image synthesis based on knowledge meta-model

LI Xiao-rui, XIE Cheng, LI Bin, LIU Qing, HU Jian-long

(School of Software, Yunnan University, Kunming Yunnan 650500, China)

The traditional chatcartoon emoticon technologies are mainly based on the predefined chatcartoon emoticon library. Through the semantic description of users, the “semantic-to-visual” cross-modal retrieval is carried out to match the appropriate emoticon. However, the number of predefined emoticon samples in the library is limited and fixed. In the actual chat scenarios, the emoticon is often mismatched or there is no match at all. In view of this problem, this research focused on synthesizing new chat cartoon emoticon rather than retrieval. A new method of cross-modal chat cartoon emoticon synthesis based on knowledge meta-model was designed. According to the semantic description of users, the corresponding chat cartoon emoticons were synthesized immediately. The method established the inner semantic logic relation of chat cartoon emoticon through the knowledge meta-model, and enhanced the semantic consistency of chat cartoon emoticon synthesis. Through the multi-generator model, the corresponding partial chat cartoon emoticons were synthesized from each meta-knowledge point, and then integrated into a complete cartoon emoticon by the joint generator, which greatly reduced the training sample demand. In the test of public chat cartoon emoticon synthesis data set, the method has achieved better semantic consistency, and it is comparable with the existing methods in the quality of synthesized image.

image synthesis; cross-modal learning; text to image (T2I); knowledge meta-model; emoticon pack

TP 391

10.11996/JG.j.2095-302X.2021060908

A

2095-302X(2021)06-0908-09

2021-03-16;

2021-06-11

云南省科技厅面上项目(202001BB050035,202001BB05003);中国科协“青年人才托举工程”项目(W8193209)

李小瑞(1997-),女,云南红河人,硕士研究生。主要研究方向为知识图谱、图像理解、图像生成。E-mail:lxr136242@163.com

谢 诚(1987-),男,云南普洱人,副教授,博士。主要研究方向为知识图谱、图像识别、零次学习。E-mail:xiecheng@ynu.edu.cn

16 March,2021;

11 June,2021

General Project of Yunnan Provincial Department of Science and Technology (202001BB050035, 202001BB05003); China Association for Science and Technology “Young Talents Support Project” (W8193209)

LI Xiao-rui (1997-), female, master student. Her main research interests cover knowledge graph, image understanding and image generation. E-mail:lxr136242@163.com

XIE Cheng (1987-), male, associate professor, Ph.D. His main research interests cover knowledge graph,image recognition, zero-shot learning. E-mail:xiecheng@ynu.edu.cn

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!