时间:2024-04-25
陈浩昕 谢雅丹
摘 要:随着互联网技术的发展,在线旅游已拥有最大的旅游市场,如何为庞大的用户群描绘用户画像,从而推荐与之匹配的旅游服务,是在线旅游企业进行精准营销的重要技术手段。本文将构建基于大数据的旅游用户画像,为在线旅游行程攻略推荐提供行之有效的可操作方法。
关键词:大数据;用户画像;在线旅游
引言
“大数据”一词最早于2008年9月在《Nature》出版的专刊“Big Date”[1]提出,一面世便受到了学术界、各国政府与各企业的广泛关注。Google、Facebook等企业最先在大数据分析领域进行了研究,根据用户基础行为数据,提出了一系列算法与模型,使大数据分析可以在多个领域的广泛应用变为可能。
随着社会的发展,旅游业已成为全球经济中发展势头最强劲和规模最大的产业之一。如何将大数据与旅游发展相结合,是在线旅游企业的研究重点。本文将基于大数据下用户画像,给予在线旅游行程攻略推荐的几种方法。
1基于在线旅游软件的独特用户画像构建
用户画像一词,最早由Alan Cooper在《软件创新之路》(1988)一书中提出。他认为,用户画像是根据用户人口统计信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像,是真实用户的综合原型[2]。传统的基于用户画像的旅游情景化推荐,将基层用户数据输出为用户画像标签,采取协同过滤方法,结合用户情景信息建立了不同景点的推荐模型。
但旅游行程攻略不同于简单的景点,需要对用户(推荐主体)与行程(被推荐对象)进行标签化,再进行标签间的相关性分析。由于用户画像是基于大数据技术的实际应用,在构建用户画像前,就必须建立相关的基层数据库。
1.1建立用户画像的数据库:DMP
DMP(Data Management Platform),即数据管理平台,是一个全面的数据收集、加工、整合的平台,是对大数据的一个分析工具。其核心是通过平台层的相关性算法,通过分析用户的个体数据、行为数据等基层数据,将用户的信息、偏好等转换成数据标签,再将数据标签进行划分和整合,形成一个个的用户群特征,最终输出为可视化的分析结果。
利用建立的DMP平臺,互联网企业便可建立自己的数据库与标签库,根据构建的算法与逻辑来计算出一系列用户标签,建立自己的用户画像与用户群。因此标签库的整理与建立工作是构建用户画像模型的基础。
1.2在线旅游用户画像标签库的构建
这里我们初步以构建静态标签库和动态标签库的方式构建在线旅游用户的用户画像。
1.2.1静态标签库
静态标签能够通过用户提供的信息、能够获取的基本信息和通过外部渠道获取的信息,如用户实名制信息、地理位置信息等。静态标签库精确性较高但表征性不明显,只能给用户兴趣做一个初步判断,比如年轻的都市女性,往往有较高的消费能力,在推荐策略上可以推荐高规格的一些内容。
①默认采集的设备信息 =(用户手机型号,联网方式,用户IP地址与MAC地址,语言,地理位置)
②用户的基本信息=(用户的虚拟ID,姓名,性别,电话,生日,身份证号,所属单位,邮箱,职业)
值得一提的是,用户关联的网络信息,如微信、QQ、微博、支付宝等相关账号,应作为关联信息而不是静态标签进入数据信息系统之中。
1.2.2动态标签
与静态标签相对的动态标签可以分为两类:一级标签是支配用户行为的浅层特征,二级标签是决定用户行为背后的深层逻辑,即具有向量特征的结构化和半结构化数据集[3]。
1.2.2.1动态标签库一级标签
一级标签是根据浅层用户行为信息简单总结得出的标签,取决于用户点击、搜索某关键词的频率。关键词的标签库在添加被推荐对象时往往可以通过上传者、编辑、审查手动添加。因此,只需给出评估旅游行程攻略的几个维度,就可作为关键词库,与一级标签一一对应。
旅游行程攻略关键词库=(旅游目的地,交通方式,时间因素,点击量,酒店品质,价格水平,目标群体,休闲程度,旅途风格,特征)
在构建旅游行程关键词库之后,便可根据用户点击、浏览的关键词频率来建立动态标签库一级标签:
一级标签=(自我评定信息,会员属性,浏览与点击,喜爱与收藏,喜欢与讨厌,主动搜索或多次点击的内容,关注的内容)
1.2.2.2动态标签库二级标签
建立二级标签的目的,是根据标签将用户归纳、总结到某个理想化的“虚拟人格”中,最终建立用户画像模型。在建立二级标签库之前,需要根据人格理论建立理想化的虚拟人格,再利用基于相关性分析的一级标签所属关键词来评定虚拟人格几个方面的相关特质,建立用户的二级标签。
人格特质模型中运用较为广泛的是“大五人格”理论模型,在多次实验中体现了稳定性(Goldberg,1981[4];Peabody,1987[5]),可以作为衡量人格特质的基础依据。国内学者张雨青、林微等证明“大五模型”在中国同样具有适用性[6]。
在参考五大人格量表之后,本文分别在神经质(Neuroticism)、外向性(Extraversion)、开放性(Openness)、宜人性(Agreeableness)、责任感(Conscientiousness)五个维度分别选取了六个下属特质,作为旅游者虚拟人格构建的30个特质,并在此基础上建立旅游者虚拟人格的测量模型。
神经质:N1平静——焦虑、N2随和——易怒、N3心态开朗——易受打击、N4健谈自信——敏感害羞、N5自制力强——冲动、N6勇敢——脆弱
外向性:E1消极疏远——积极热情、E2孤僻独处——热闹合群、E3腼腆被动——自信果决、E4缓慢——急迫、E5谨慎传统——冒险刺激、E6严肃——活泼乐观
宜人性:A1猜忌悲观——信任他人、A2精明虚伪——坦诚率真、A3自私势利——热心慷慨、A4攻击性强——恭顺克己、A5傲慢自负——谦逊谦卑、A6理性冷静——友好热心
开放性:O1理性现实——充满幻想、O2审美疲乏——艺术敏感、O3情感迟钝——情绪敏感、O4守旧传统——求新求异、O5思辨力弱——思路开阔、O6尊崇权威——挑战传统
责任感:C1自卑——自信、C2杂乱无序——高效条例、C3不负责的——可信赖的、C4没有目标——有抱负的、C5容易放弃——高度自律、C6冲动草率——深思熟虑
由于数据计算基于定量关系,在构建用户虚拟人格时,以上列举的30个特质都必须转化成数值进行分析。每位用户的初始特质分数为0,不同的一级标签为该指数加分或减分,数值大小由基于相关性分析得到的相关性系数的大小来确定。最终形成一个位于(-100,100)区间内的分数。当分数位于(-100,-50)或(50,100)的区间内时,系统将会将此特质决定的二级标签打在用户身上,成为构建用户画像的一个特质标签。
当一级标签的数量足够多时,就可以精准地描绘用户的某个特征;当各特征值足够多的时候,就会将用户归纳到一个“虚拟人格”中,系统就可以为此一类用户精准推送内容或广告。
1.3构建用户画像与标签库算法的计算核心——相关性分析
利用Python计算两数组间相关性是其中的一个方法:当用户点击了一个带有多个关键词的词条,以各个关键词的点击量与其他点击了该词条用户带有的各标签频率关系做相关性分析,就可以选出相应的标签为此用户添加:
①建立数组:首先,根据各关键词的点击量与其他点击了该词条用户带有的各标签频率建立两个数组
print(a)>> [A1,B1,C1……]
print(b)>> [A2,B2,C2……]
②期望
由于两数组中数据一般为离散型随机变量,因此采用离散型随机变量公式:
③离散度:即标准差与方差,同样采用离散型随机变量公式。
④协方差与相关系數
接下来开始计算两组数据的相关性,一般采用相关系数来描述两组数据的相关性。
协方差:
相关系数:
同样,除了利用Python计算相关性关系外,也可使用NumPy计算协方差矩阵相关系数、使用pandas计算协方差与相关系数、利用SPSS软件分析变量间的相关性关系[7]等方法来实现算法构建。
2基于用户画像的旅游行程攻略推荐方法
2.1针对单个攻略的推荐方法
由于被推荐对象是单个的文本内容,对于分析其关键词与目标群体特质相对简单,因此采用基于内容的推荐方法。基于内容的推荐算法是一种扩展的信息过滤技术[8]:
传统的基于内容的推荐方法只能根据用户画像标签进行文本相似度计算给出敏感程度高的资源。由于没有将用户的虚拟人格融入到推荐方法中,不能预测用户的兴趣趋向。因此在本文研究中,将加入目标群体与虚拟人格之间的特质标签,以减少该方法的缺陷。
假设参与推荐的推荐主体为用户群U,每位用户已被赋予的标签集合为T。被推荐对象为内容C,被推荐对象已被赋予的关键词为集合K,目标群体为u1(u1∈U)。
通过相关性分析计算K与T中各标签的相关性系数P、u1的人格特质数值与T数值的相关性系数Q,将计算得出的两数值P、Q通过权重计算得出最终指数I,指数I即为每位用户对该被推荐对象的敏感指数。然后设立一阙值It,将此内容推送给敏感指数I≥It的用户。最后比较目标群体的平均指数Ii与It之间的大小关系,反复调整阙值It,最终确立It的大小。
2.2针对单个用户的推荐方法
在建立了用户画像与虚拟人格之后,用户带有大量的标签与信息可供计算分析,面对资源库中海量的资源,传统的基于内容的推荐法不能适应用户多变的性格特质,也不能挖掘用户的未知领域。因此,当针对单个用户的推荐方法时,目前使用范围最广泛、使用次数最多的协同过滤推荐法是一种优先选择。也就是,我们可以运用基于用户的协同过滤推荐算法和基于资源的协同过滤的推荐算法。
2.2.1基于用户的协同过滤算法
假设用户A的一级标签为集合T1,包含n1个一级标签,二级标签为集合K1;用户B的一级标签为集合T2,包含n2个一级标签,二级标签为集合K2。
T1∩T2=T∩,T∩中包含的标签数量记为n∩,α= n∩/n1,β=n∩/n2。
根据构建虚拟人格时所构建的30个特质,集合K1、K2各包含30个数值。因此数集K1、K2可以根据1.3中给出的相关性分析进行计算,得到的相关性系数记为η。
若α≥β≥75%,则称用户A与用户B为兴趣相似用户,且用户A为用户B的兴趣类型用户;若η≥75%,则称用户A与用户B为人格相似用户。
在为用户A推荐项目资源时,可以推荐其兴趣相似用户B喜爱的项目;在预测A喜爱的项目资源时,可以推荐其人格相似用户B喜爱的项目。
2.2.2基于项目的协同过滤算法
假设用户A喜欢的项目为C1,C1包含的关键词集合为K1,包含m1个关键词,关键词能够决定的特质数值的集合为U1;存在项目C2,C2包含的关键词集合为K2,包含m2个关键词,关键词能够决定的特质数值集合为U?2。
K1∩K2=K∩,K∩中包含的标签数量记为m∩,α= m∩/m1,β=m∩/m2。
根据构建虚拟人格时所构建的30个特质,集合U1、U?2共包含30个数值。因此数集U1、U?2可以根据1.3中给出的相关性分析进行计算,得到的相关性系数记为η。
若α≥β≥75%,则称项目C1与项目C2为内容相似项目,且项目C1为项目C2的内容类型项目;若η≥75%,则称项目C1与项目C2为目标群体相似项目。
在为用户A推荐项目资源时,可以将与项目C1内容相似的项目C2推荐给用户;在预测A喜爱的项目资源时,可以将与项目C1人格相似的项目C2推荐给用户。
3结束语
本文基于大数据下的用户画像,构建了在线旅游虚拟人格模型,为个性化旅游行程攻略推荐提供了方法。首先,根据用户行为数据、用户基本属性构建用户静态标签、动态标签与虚拟人格,然后结合推荐内容的关键词,利用多种算法进行相关性分析,最后根据基于内容、用户、项目等被推荐对象给出了不同的推荐方法。在一定程度上为解决在线旅游企业旅游行程攻略解决了实际性问题,对于其他领域构建网络虚拟人格也提供了思路。
参考文献:
[1]Bigdata.Nature,2008,455(7209):1-136
[2]Alan Copper,刘瑞挺. 软件创新之路[M].北京: 电子工业出版社,2001.
[3]谢康,吴记,肖静华:基于大数据平台的用户画像与用户行为分析. 中国信息化 2018-03-10
[4]Goldberg,L. R. Developing taxonomy of trait-descriptive terms[J] Problems with languageimprecision;New directions for methodology of social and behavioral seienee,1981,9:43-65.
[5]Peabody,D. Selectingrepresentative trait adjectives[J]. Journal of personality and SocialPsychology,1987,52:59-1
[6]张雨青,林微,陈仲庚:家长对子女人格特點的自由描述明[J].心理学报,1995,3:281-286.
[7]孙逸敏:利用 SPSS 软件分析变量间的相关性1008—3588(2007)02 -0120 -04
[8]Di Jiaqi, Wang Nihong. Incremental collaborative filtering algorithm based on GridGIS [J]. Computer Science,2013,40(12):219-222.
[9]陶俊, 张宁. 基于用户兴趣分类的协同过滤推荐算法[J]. 计算机系统应用, 2011, 20(5):55-59.
作者简介:
陈浩昕,男(2000,4——),山西太原人,成都信息工程大学,2017级旅游管理本科生在校学生,研究方向:旅游管理。
谢雅丹(指导教师)女,(1979,8——),四川自贡人,成都信息工程大学,博士,讲师,研究方向:文化遗产与旅游开发;智慧旅游;会展旅游。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!