时间:2024-05-04
颜琪 电子科技大学成都学院
“互联网+”概念提出后,以互联网平台为基础的电子商务企业蒸蒸日上,而实体商务却处于低迷状态。通过大数据交易平台可解决这类问题,它将生成客户要求的逻辑策略并执行采集、存储、清洗、挖掘、可视化的数据处理。主要应用于实体商业的量化信息服务,针对用户的属性,加以合理的处理分析,促使更多的潜在用户消费,实现精准营销,提高实体商业对于电子商业的竞争力。平台框架由硬件层、架构层、存储层、处理层及应用层组成。实体商业大数据交易平台架构如图1所示。
图1 实体商业大数据交易平台架构
数据采集模块将采集商品的位置信息与用户坐标信息。商品的位置信息通过预处理商家的历史交易数据获得,为后续数据挖掘提供基础。用户坐标信息采用群智感知的方式进行采集。通过采集商店中携带智能设备用户的信息,得到客流量情况。
实体商店处于数据量日益增加的大数据环境中。由于关系型数据库横向扩展、海量数据的并发读写能力差等缺陷,对实体商店的商业环境特征的分析,选取NoSQL 数据库中的——HBase 作为数据存储载体。
建立三个模块表,即商店信息表,商品表及用户表。平台在实际运行中,直接查询所存储的表信息的所有信息会增加时间成本,所以通过构造合理的二级索引表来提升查询效率。
实体商店的HBase 数据库存储结构通过满足运营商、商店及用户的需求实现高性能的存储。增加二级索引表提高响应速度,优化用户体验。
通过定期对数据进行清洗解决数据采集产生的数据缺失、数据冗余及数据异常等问题,实现数据质量的提升。
前期需对商店信息表、商品表及用户表中的数据进行简单的分析,结合清洗设备,确立清洗的目标与所需具体方法,并检测数据中是否存在冗余数据、设备故障、中断或人为损坏所致的异常数据、设备采集值超过正常设定参数值等不一致数据。评估定位检测的输出结果并评估,从业务影响与问题本质两方面进行分析,优化原方案。最后修正检测输出的数据,删除空数据、结合排序消除不一致数据、结合优先权队算法合并冗余数据、结合K 最近邻法减少缺失属性值对分析的影响,估测缺失数据并进行填充。
通过集成多组件与YARN 框架,获得合理的归纳,获得数据中潜在的规律。
离线数据处理主要完成历史交易数据的挖掘。将采集的用户购物信息作为离线数据进行分析,不指定分类标准,根据数据全面客观地划分用户群体,结合逻辑回归算法预测不同用户群体的发展趋势,以此招纳符合发展趋势的商家入驻。
实时数据主要完成用户实时数据的挖掘。采用模糊Apriori 算法挖掘用户与商品间的联系,推测用户还可能购买的商品信息。之后挖掘频繁项集,即多次购买的商品信息,若得到的频繁性数据与预定的最小支持度一致,产生强关联规则。
数据可视化模块通过使用百度开源项目Echart 对输出数据进行图形化绘制,呈现出数据间的关联。平台提供商家离线、实时数据的可视化图像、决策支持与趋势预测,提高决策人员对营销运行体征的研判速度,最大化地避免感性思维带来的风险。
面向商家,提供商店基础销售情况,辅助商家调整商品库存、逆向营销。实时反馈人群迁移信息判断客流量情况,拟合下一时段的客流量,以此提醒商家应对短时间的客流量急增现象。实时客流量及趋势预测如图2 所示。
图2 实时客流量及趋势预测图
面向运营商,可视化重复率高的购物路径,纠正用户的购物直观印象,或在这条购物路径上重新规划设立广告推送,促进消费;反馈时间序列的全景地形人流量堆积图,观察人群的聚集位置及迁移方向,用于大型广告推送及活动设立。
基于Hadoop 分布式集群并行实现自适应式移动轨迹算法与模糊Apriori 算法。以百货商店为例,针对10 万条用户和商家数据进行分析。
其中Apriori 算法匹配程度在70%~75% 的数据有9585条,'75%~80%的数据有82533条,80%~85的数据有6742 条,85%~90%的数据有135 条,90%以上的数据有5 条,相比于传统销售系统,推荐精度平均提高25.6%。
该平台提供了模块的优化设计,如在存储方面,设计了相应的查询优化,设计了清洗框架以保证整个生命周期的数据质量。通过实体商业大数据平台,能够实现精准营销,并为决策者们提供决策支持与个性化营销方案的目标。但该交易平台还需要集成更多的功能模块,不断改善以达到实体行业的创新。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!