基于异源集成算法的用户购买行为预测分析

时间：2024-05-04

陈静静

（阿里巴巴集团控股有限公司浙江省杭州市 311121）

在电子商务时代背景下，互联网与物联网得到了广泛地普及，越来越多的人习惯在网上进行购物，在此背景下，更好地了解用户的购物偏好，成为了电商为用户提供精准服务、提升自身经济效益的重要举措。现阶段，为了更好地满足电商的发展需要，以异源集成算法为基础，对用户的购买行为加以分析，成为了一项极为必要的举措。

1 预测分析用户购买行为的意义

电子商务在中国发展二十余年，中国的电子商务占全球互联网零售总额的50%以上，但并没有止步于此，目前中国电子商务的发展速度仍快于其他地区。电商上市公司数量不断增加，电商平台商品种类越发丰富，切实满足了人们的产品消费需要，这一情况的出现很可能增大用户商品购买的倦怠感，进而降低商品的成交率。现阶段，为切实解决上述问题，电商平台方面可以通过合理应用异源集成算法，对用户购买行为数据进行调查分析，对用户的购买习惯进行合理预测，并借助平台，自动为用户推荐符合用户使用需要的商品的方式，进一步加快用户搜寻所需商品的速度，在提升用户购物体验的同时，提高了电商平台的商品转化率，从而为电商企业长期稳定发展提供有效的支持。

2 预测分析用户购买行为的方法

对于当前的电商行业来说，预测是为用户提供商品推荐的基础。近年来，随着信息技术的飞速发展，电商平台可以应用异源集成算法对用户的历史购买行为进行挖掘与分析，找出用户的购买行为特征、消费偏好，总结用户的行为发生规律，并以此为基础对用户未来的购买行为加以预测，为商品的精准推送、营销提供可靠的依据，从而达到切实提升平台服务质量的目的。

2.1 机器学习算法

在当前的用户购买行为预测分析过程中，机器学习算法理论得到了广泛的应用，并且相较于用户购物行为预测算法，机器学习算法可以有效提升用户购物行为预测的准确度。

2.1.1 逻辑回归

2.1.2 支持向量机

表1： 2017 年12 月-2021 年12 月我国网购用户规模及使用情况

2.1.3 随机森林

随机森林算法是一种以决策树作为基本单元的算法，在实际应用过程中，利用集成学的思想对多个相互不存在关联性的树进行集成，在新样本进入随机森林时，每棵树都会与样本进行比对，并应用集合策略对最终结果加以预测。现阶段，随机森林算法较为常用的场景包括判断用户是否存在购买行为、用户下次购买商品的日期归属等。在随机森林算法构建时，首先要以原始训练样本集N 诶基础，利用自助法，随机从N 中有放回的选取n 个样本，并将这n 个样本做成一个新的训练集；其次，从样本所有特征中随机选取K 个特征值，并以决策树学习算法为基础，从K 中计算、选择出最优化分特征，使之行为新的决策树；最后，重复上述两个步骤m 次，生成由m 棵决策树构成的随机森林。

2.1.4 梯度提升决策树

2.1.5 卷积神经网络

卷积神经网络作为一种深度学习算，是由深度卷积计算以及具有深度结构的前馈神经网络共同组成的，在实际应用过程中，这一算法区别于输入层与隐藏层全连接的传统神经网络算法，可以通过引入卷积层与池化层的方式，实现特征的自我选择，同时该卷积神经网络可以通过局部连接的神经元、下采样技术、权值共享技术简化网络系统，提升算法训练的性能。

2.1.6 深度森林2017 年，深度森林这一概念被首次提出，同时提出了以随机森林微积分类器的多粒度级联森林深度树集成方法，并且这一算法与一些和深度神经网络竞争的领域表现出了较强的分类性能。在实际应用过程中，深度森林算法的成功离不开神经网络逐层处理、内部变化存在特征、复杂度足够这三大特点。

2.2 基于时间滑窗的特征构建

2.2.1 数据介绍

对于电商平台来说，用户购买行为数据预测的真实性、数据量的大小与预测评估模型质量之间存在着直接的联系，真实的数据集可以有效提升模型的质量，强化模型的说服力，并且在模型构建过程中获取的数据量与模型的稳定性之间存在着正比例关系。本文在进行用户购买行为数据预测模型设计时，以京东平台的真实用户历史行为数据作为基础数据集，该数据集可以被分成商品基本信息表，用户基本信息表，用户行为表，用户订单表，评论分数数据表这五个数据表，并且在进行平台模型构建过程中，为避免用户隐私的泄露，可以用User_ID 表示用户标识、sku_ID 表示商品标识、用o_ID 表示下单标识。

2.2.2 数据分析

对用户的购买行为进行分析，可以发现在电商平台挑选货品时，大部分用户会先使用平台的搜索功能，找出与自身所需购买的商品，并浏览平台页面上展示出的不同品牌、不同规格、不同价格的商品，然后对商品的性价比加以比较，同时，在商品比较挑选的过程中，用户会产生诸如将商品加入购物车、浏览商品用户评价等一系列的操作行为。对当前电商平台用户行为进行收集比较后可以发现，用户的采购习惯之间存在着一定的差异性，比方说，部分用户要达到一定的浏览次数后才会产生购买行为，也有部分用户习惯先对心仪物品进行关注，然后在关注列表中对这些商品进行进一步的分析与购买。在当前的用户购买行为预测过程中，可以通过可视化分析的方式对用户的购买习惯进行收集与整理，从中挖掘出用户的购买规律与购买偏好，从而使用户购买行为预测模型的构建更有针对性，也更全面。若用购买行为的稀疏度表示用户在过去一年内的购买次数；用户的活跃度以及行为的重密度表示用户浏览行为的发生次数，那么在某段时间内，京东平台上购买次数在六次以内的用户数占比接近70%，用户浏览关注行为在60次以内的用户数超过了七万人，用户占比超过了70%，上述数据表示，当前大部分电商平台用户浏览、关注、购买的历史行为数相对较少，数据集在整体上表现较为稀疏。同时用户对牙膏、牙刷、卫生纸等日用品类的商品购买行为存在一定的规律性，从理论上讲，一个用户两次购买行为的时间差，大多在某一时间范围内，对用户购买同类商品的持续规律进行准确分析，计算出用户购买该类商品的间隔时间，可以为后续产品的推送、销售工作的顺利推进提供有效的支持。同样对某段时间内京东平台上用户购买行为的平均时间间隔进行分析可以发现，若用户浏览或关注某商品的时长小于20d，那么用户购买行为出现的可能性相对较高，若关注或浏览的时长在30-90d 内，那么用户购买该商品的可能性与时间长短之间呈反比例关系。通过对用户购买行为的时间数据进行横向对比分析后，可以确定当前电商平台的时间滑动窗口可以设置为三个，其大小分别为30 天，90 天与180 天，并且窗口的权重依次递减，分别设置为2、1.5 与1。

2.2.3 数据处理

完成用户购买行为数据集的采集后，为进一步提升用户采购行为预测模型的准确度，需要对数据进行去除唯一属性、数据去重、样本均衡化、缺失值处理，从而得到一个更为准确的特征数据集。在数据集处理完成后，需要对其中的正负样本进行统计，在数据层面可以通过采样技术达到数据的类别平衡，现阶段较为常用的数据采样方法为SMOTE 采样法，这一方法在实际使用过程中可以通过生成新的负样本数对数据集加以平衡。

2.3 基于深度森林的复购预测模型

在完成数据特征提取工作后，可以进入用户购买行为预测模型的构建与实验阶段。

2.3.1 实验准备

为保证模型搭建的可靠性，应当在正式构建模型前，对其评估指标加以确认，然后在明确数据提取特征的基础上，选定合适的训练集与测试集的划分方法。

2.3.2 深度森林模型

相较于其他模型构建方式，深入森林算法可以利用多粒度扫描模块进一步增强输入特征的差异性，同时，由于深度神经网络有着较强的处理特征关系的能力，在深度神经网络结构的启发下，深度森林模型在构建应用过程中，可以以多粒度扫描结构为基础，对原始输入数据特征进行转换，以便实现进一步提升级联森林特征提取工作质量、提高初始特征表达能力的目的。同时受到深度神经网络结构中，表征学习需要对原始特征进行逐层处理的影响，深度森林采用级联结构，实现表中学习功能的完工。在实际应用过程中，首先，每一层级联结构在工作前，都需要先接收并处理前一层联机结构输出的特征数据，然后对本层数据进行处理，将综合处理结果输入到下一层。其次，该级联结构的每一集都是由若干个随机森林组成，每个森林又有若干个决策树集成而成，因此当前的级联森林结果可以被看作是集成的集成。

2.3.3 复购预测模型

在完成用户购买行为预测分析模型的初步构建后，可以通过对用户复购行为进行预测的方式，进一步提升用户网购行为预测的准确性。在开展深入森林构建工作的过程中，模型构建是森林构建的核心。而森林的建立离不开决策树的支持，而构成森林的决策的质量与数量会对模型的训练效果与分类效果产生直接的影响。现阶段在购进深度森林模型时，可以联合多种模型、从多个角度对用户的购买行为进行预测分析，以便为后续级联模型种类与超参数的设定提供有效的支持。经过对上述京东某段时间内用户网购行为进行数据分析后，可以发现各森林模型整体均呈现新增加后续平稳的发展趋势，同时在对模型的超参数进行设置时，不同的模型所选取的超参数也应有所不同。

2.3.4 实验分析

在完成用户购买行为预测模型的初步搭建以及超参数值的确定工作后，可以通过实验分析的方式，多角度的对模型的表现情况进行分析，调整预测模型带入的参数值，为后续实验的开展提供最优的预测模型。具体来说，本文搭建的用户购买行为预测分析平台为以Python 语言为基础，实验硬件环境为8g 内存的英特尔i7-770cpu@3.60 兆赫兹，系统的处理器为Win 10 专业版。为更好地了解该用户购买行为预测分析模型的使用效果，可以通过引入传统机器算法，并将两者的逻辑回归情况，支持向量机情况，决策数，深度卷积神经网络集成算法随机森林等内容进行预测与比对。通过比对后可以发现，深度森林模型在用户复购行为预测上有着较好的效果，但相较于深度卷积神经网络，深度森林模型优势并不明显，但这一情况的存在并不影响深度森林模式，在电商平台应用场景下仍存在着较高的应用优势。

2.4 基于Stacking的日期预测模型

为实现用户一段时间内购买行为发生的时间范围的准确预测，可以在完成用户购买行为细粒度预测后，以Stacking学习法思想为基础，搭建更为精准的集成学习法框架，为预测工作的顺利推进提供有效的支持。

2.4.1 Stacking 模型的介绍

Stacking 是一种多层异源集成框架，两层Stacking 算法是这一模型中应用频率较高的算法模型。对两层Stacking 模型进行分析后可以发现，多个不同类型的基学习机器共同组成了该模型的第一层，在这一模型的实际应用过程中，训练时可以先向第一层输入原始数据集，第一层基学习器会将自身训练得到的一次训练结果传到第二层，由第二层模型对一次训练结果进行二次训练处理，在两次训练工作完成后，将会得到最终的训练结果。Stacking 模型集中了对多个不同模型的优点，相较于相互独立的预测模型，这种多层异源集成模型非线性表达能力更为强大，在数据处理过程中，可以有效降低泛化误差的出现概率。

2.4.2 模型选择

在实际的用户购买行为预测体系构建过程中，为降低模型的构建难度，可以先试用较为简单的SVM、决策树模型等传统机器学习模型，但对这些模型的分析结果进行整合研究后可以发现，这些模型的输入特征的利用率偏低，使得得到的模型存在欠拟合的问题。面对这一情况，可以应用CBDT、XGBoosts 等主流集成学习框架，使模型的非线性表达能力得到有效的增强，需要注意的是，由于集成学习模型由多棵决策树共同组成，在进行分析时，每棵树都需要在节点分裂时扫描所有数据的计算分裂增益，并从中选出分裂正义最大的特征，并对其进行分裂处理，这使得决策模型在应用过程中需要对大量数据进行多次情景处理，这在一定程度上增大了模型使用过程中的资源消耗、延长了数据处理的时间、降低了模型的收敛速度。现阶段，为切实解决上述问题，在构建模型的过程中，可以将LightGBM 集成学习算法引入其中，在进一步提升训练速度的基础上，有效降低了模型在数据分析时消耗的内存，这一情况的出现使得该模型的长期使用过程中，即便后期数据量持续增大，但仍能维持着较高稳定性。需要注意的是，在以异源集成算法为基础，分析用户购买行为时，为进一步提升集成方法的准确性，推动基础学习器的多样化发展，成为了一项极为必要的工作。现阶段，在模型构建过程中，为进一步提升基础学习器的多样性，可以将基于Bagging 的随机森林算法引入模型体系搭建过程中，使LightGBM 与随机森林算法模型共同组成Stacking 集成算法的第一层，通过这种方式，可以有效提升Stacking 模型的基础学习器种类，并且通过对这些基础学习器进行整合处理的方式，可以有效避免因模型较为单一而出现较为明显偏向性的问题，进一步提升预测结果的可靠性。

2.4.3 算法描述

在进行模型构建过程中，可以先输入249 维特征向量数据，并将这一数据作为输入数据直接输入到模型的第一层中，在模型构建过程中，Stacking 算法框架第一层有3 个基于决策树的模型，其中一个为随机森林模型，另两个为LightGBM 模型，这两个模型的超参数设计不同，这种多样化的模型构建方式，有效提升了模型的数据分析准确度。在模型工作时，模型可以得到输出结果Di，再对上述三个模型得到的输出结果进行拼接处理，则可以得到第一层的最终输出D’，然后将D’输入到第二层模型中，由第二层模型对输出权重进行计算，从而达到得出最终输出结果的目的。

2.4.4 日期预测评价函数