时间:2024-07-28
苏 燕,王 猛,苗润生
(1.哈尔滨铁路局 信息技术所, 哈尔滨 150008;2.哈尔滨铁路局 客运处,哈尔滨 150008)
一种智能学习的动态客户标签方法的研究
苏 燕1,王 猛2,苗润生1
(1.哈尔滨铁路局 信息技术所, 哈尔滨 150008;2.哈尔滨铁路局 客运处,哈尔滨 150008)
研究客户标签的生成机制,构建一种动态的客户标签更新方法,结合One-Class分类和支持向量机算法智能模拟人类的学习行为,能够在模型的复杂性和学习能力之间衡量并不断自我优化,仅通过典型有限的小样本训练集,即可建立客户标签模型,又由于小样本可有效提高运行效率,实现客户标签的动态更新。
客户标签;向量机;One-Class;动态
随着铁路信息化的飞速发展,客票数据以其丰富的类型和庞大的数据量成为铁路信息化数据中具有强大潜在价值的数据之一。结合互联网数据进行客户行为分析,构建属性标签体系两层面客户需求分析,建立客户识别模型,实现精准营销,是铁路在传统运输业激烈竞争中取胜的关键。客户标签就是基于所获取到的客户属性和客户特征,基于业务特征规则和客户标签规则,采用一种类自然语言方式对客户特性进行重新的描述,并在相应的主动营销过程中基于客户标签进行精确营销。目前,主要运用分类和聚类方法,利用客户属性和行为对客户进行标签。
分类方法是一种有指导学习方法,在明确假设或者客观结果前提下,对具有标记的训练样本进行学习建立分类分析模型,以尽可能正确地对训练样本之外的示例的标记进行预测,即对客户进行分类标签,训练例的标记都是已知的,因此训练样本的歧义性最低。目前主流的分类算法有神经网络分类算法、贝叶斯分类算法。
神经网络分类算法,通过模拟动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。尽管神经网络方法具有较高的分类精度,但是由于难于提取其所隐藏分类规则、局部极小值等缺陷影响了其发展推广。贝叶斯算法,是利用概率统计知识进行分类的算法,适用于大规模数据。算法训练样本的必须假定样本属性相互独立,不存在依赖关系,而实际中客户属性和行为间不可能完全相互独立。
聚类分析计算方法在客户标签模型中应用的方法,主要有层次聚类分析和K-MEANS聚类分析。层次聚类分析通过迭代合并对给定的数据集进行层次似的分解,直到所有的样本组成一个分组或者某个条件满足为止,更适合于有潜在层次结构的数据,例如客户的消费行为数据。K-MEANS聚类分析是一个迭代过程,直至满足某个阀值退出,该算法的前提必须要输入聚类数量K,在未知的情况下则需要从K=1开始进行测试,当k达到一定大的时候,就可以取到了最佳的k值,完成聚类。
针对传统分类方法的弊端,构建一种动态的客户标签更新方法,结合One-Class分类和支持向量机算法智能模拟人类的学习行为,能够在模型的复杂性和学习能力之间衡量并不断自我优化,仅通过典型有限的小样本训练集,则可自动分析获得规律,建立客户标签模型,又由于小样本可有效地提高运行效率,实现客户标签的动态更新。除此之外,通过引入One-Class分类思想,仅需选取目标数据样本则可完成模型的训练和建立,既降低了样本选取的难度和工作量,又排除了假样本数据对于训练效果的影响,因此结合One-Class支持向量机算法,更符合铁路业务大数据分析的需求,主要分为以下3个阶段。
2.1 确定特征向量
特征向量的准确选取是建立数据挖掘模型的关键因素。对于不同的标签模型要建立不同的特征向量集,随着业务的不断发展变化,特征向量集也要随之更新。特征向量集是建立在客户特征基础上。客户特征,包括客户属性特征和客户行为特征两方面。属性特征即客户的外在属性,如性别、出生日期,团体企业性质等客户基本信息,此类信息很少甚至不会变化,在本方法中定义为静态特征。行为特征则是客户的个人行为属性,例如列车等级选择行为、席别选择行为、订购渠道行为等等,行为特征随着外界因素的影响而变化,稳定性较差,将此类信息定义为动态特征。通过对样本数据客户特征的分析和学习建立分析模型,挖掘出客户旅程选择、乘车类型、订票渠道等特征。
(1)特征向量的选取
客户标签的建立,基于行为特征规则和客户属性规则。为了保证模型的全面性和准确性,在客户属性特征的基础上,使用多维度的客户行为特征共同作为训练样本的特征向量集。
对于不同的标签定义,要采取不同的特征向量集。以内容偏好模型为例,客户特征向量集包含静态特征如性别、年龄等用户基本特征,动态特征则要通过汇总旅客的购票和实名制数据,如旅客购票的车次、发站、到站,席别,列车等级等数据,以及旅客所居区域信息,按所需多种统计口径,汇总旅客的购票行为信息,对于模型的特征向量选定后,便可对原始选取的样本数据进行特征向量提取,作为训练模型的输入。
(2)特征向量编码和归一化处理
支持向量机的输入要求每个数据样本都要以实数向量的形式出现,因此,对于非数字特征数据,首先需要将其数据化。在旅客属性和行为数据中除了少数汉字信息和字母外,都有对应的数字代码,因此作为样本数据直接输入训练。
对于客户特征中包含汉字的信息,除地址信息外其他相对价值很小,可以剔除掉,而地址信息除了用户基本特征中的归属地等粗略的区县级别的信息有对应的数字代码外,更细级别的地址类信息则可以选用经纬度数据标示。对于字母的处理,针对26个字母大小写分别配置对应的数字代码,则完成所有有价值信息的统一数字编码。
2.2 选取标签样本训练集,建立客户标签模型
(1)One_class支持向量机算法
SVM方法是基于小样本的智能机器学习方法,其基本原理可以简单的理解为将非线性向量映射到一个更高维的空间中,如图1所示。
图1 输入空间到特征空间的映射
将输入空间中线性不可分的数据集映射后变换为线性可分,然后在这个高维空间里建立一个使两个超平面的距离最大的最大间隔超平面,如图2所示。即通过小规模训练样本的学习过程,形成最优分类规则。
传统的机器学习一般都是需要正负2类训练样本,而对于客户标签模型非此即彼,且假设的负样本中也可能是潜在的正样本数据,为了避免假负样本影响训练结果,引入One-Class SVM,即训练样本只有一类,标签为1或者-1,用一种训练样本训练分类器,再用分类器去测试标签为1和-1的测试样本。One-Class分类问题,就是一个two-class分类问题,负样本中的唯一元素就是原点,而所有的训练数据都是正样本。One-Class分类问题返回一个函数,函数值为1的是最小半径的球体包含最多的数据点,如图3所示,其他的则为-1。
图2 最优分类超平面
图3 One-Class SVM
One-Class 支持向量机已被成功应用到许多领域,特别是存在数据不平衡的文件分类、预测等领域。
(2)获取训练样本,建立客户标签模型
由于支持向量机是指导学习算法,因此需要有已知的样本集用于训练建立模型,每一类标签用户需要一个训练样本。标签用户样本的获取可以从现有的标签用户中抽取小量数据作为训练样本,或者从聚类结果中寻找目标标签用户的分类,从中选取小量样本,不同类型的标签选择不同的样本选取方式。样本的规模直接影响建模的效率,因此只需选定具有典型特征的样本。
以文中举例的内容偏好模型为例,在模型的特征向量选取完成后,则需确定训练样本进入模型学习阶段。对于已有分类的业务(如互联网购票,电话订票等),则可直接采用包含业务标签信息及具体内容的样本数据;对于没有具体分类业务(如POS结算等),既可利用简单规则匹配来进行内容分类,目标是用尽可能少的规则,覆盖80%的客户,也可利用挖掘方法对业务内容进行解释分类,然后根据分类结果选取样本数据。
将样本数据按照选取的特征向量集的规则进行处理后,作为训练模型的输入。模型的输入主要分为用户静态特征、内容分类规则、旅途规划等。模型经过训练后,形成黑盒子分类规则,即完成了内容偏好模型的建立。
2.3 动态更新客户标签
支持向量机是基于小样本的统计学习理论,基于结构风险最小化,是目前针对小样本分类等问题的最佳方法。在求解大规模数据分类需要较大内存来存储向量矩阵,而矩阵的大小则依赖于样本数,只要选取有限的少量具有典型特征的样本,则可在保证分类精度的同时,有效降低空间开销,提高效率。相对于原有的客户标签算法而言,大大降低了分类时间,为实现客户标签的动态更新提供了可能。随着客户行为特征的不断变化,及时更新客户分类标签,为市场的精准营销提供有力的支撑。
本文结合One_class分类思想和支持向量机的智能学习算法,仅通过有限少量的目标标签客户样本即可构建标签用户分类模型,实现动态更新客户标签。通过One_class支持向量机训练样本只有一类,在本文应用中,选取目标标签客户作为训练集,即正样本,既降低了样本的规模,又避免了假负样本对于模型的影响;基于支持向量机的标签客户模型是一种更智能的符合人类自然行为方式的数据分析模型,仅需有限的典型小样本即可构建具有自我改善性能的客户标签分类模型,有效地降低了样本选取的难度。而影响支持向量机分类效率的主要因素是特征的规模,标签的建立基于客户有限的特征,因此通过精准的特征集选取,可以有效地提高分类效率和分类效果。
目前,铁路客运营销多是对车流信息、票务信息的分析预测,还没有一个完善的基于对客户行为分析预测的软件和方法。对于某些管内短途车,上座率比较低的车次,以及铁路在传统运输业的长远竞争,可以通过分析客户标签数据,抢占客流,提高铁路旅客发送人数。
[1] 王 伟,郑东良.支持向量机的分类机理研究[C]. 信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集,2004.
[2] 鲁 培. 一种改进的基于项目聚类的协同过滤推荐算法[J]. 科技传播,2011(1).
责任编辑 方 圆
Dynamic customer label method of intelligent learning
SU Yan1, WANG Meng2, MIAO Runsheng1
( 1. Institute of Information Technology, Haerbin Railway Administration, Haerbin 150008, China; 2. Department of Passenger Transport, Haerbin Railway Administration, Haerbin 150008, China )
This article mainly studied on the mechanism of the customer label, built a dynamic customer label update method, combined with One-Class classif i cation and support vector machine (SVM) algorithm to simulate human learning behavior intelligently, was able to measure between the model's complexity and learning ability and be constant self optimization. The customer label model could be built by typical limited small sample training set. The small sample could effectively improve the operation eff i ciency, implement a dynamic update of customer labels.
customer label; vector machine; One-Class; dynamics
U293.2∶TP39
A
1005-8451(2014)08-0016-04
2014-02-19
苏 燕,工程师;王 猛,高级工程师。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!