时间:2024-07-28
吴伯利,李善玉,王美桦,邓伊琳,刘小红
(惠州学院 旭日广东服装学院,广东 惠州 516007)
随着信息技术时代的来临与电子商务时代的飞速发展,不计其数的信息资源已成为电商平台的显著标志和价值体现。服装领域是电子商务最为突出的细分产物,纵观电商数据,服装产品发展迅猛,多年稳居电商零售市场前列[1]。在大数据浪潮中,营销数据与企业的营销模式深度捆绑[2],以往靠人工采集数据的方式不但效率和成本难以平衡,而且数据量并不理想,有时还需要结合多种数据采集方式。为了更高效、精准地获取所需数据,网络爬虫技术应运而生。对于线下门店,特别是在服装领域的竞争对手之间,销售数据属于行业内的商业机密,收集难度很高,但服装电商的出现很好地解决了这一难题,天猫作为全国最大的综合性购物网站之一,为消费者和网店经营者提供了大量具有信息价值的网购数据[3]。面对海量的网购大数据和“千人千面”的搜索结果,本研究旨在提供一种方便快捷、节约成本的数据采集方式,并在冗杂的网购数据中整理挖掘潜在价值。
为了采集天猫平台男装九分牛仔裤完整的网购数据,本研究选择python网络爬虫技术,通过编程实现网购数据的自动采集。python语法十分优美简洁,具有较强的可读性和可维护性[4],网络爬虫Scrapy框架就是python语言。Selenium是使用最广泛的开源Web用户界面(UI)自动化测试套件之一,支持phantomJS无界面浏览器[5]。在数据采集过程中,发现天猫搜索最多只显示80页商品信息,一次搜索结果最多包含4 800个商品信息,而且搜索结果“千人千面”。针对这种情况,本研究选择了基于价格子集划分的数据采集策略,即将价格划分为22子集,每个子集内的商品信息数量不超过4 800个,这时就需要根据统一资源定位系统(Uniform Resource Locato,URL)的结构规律构造出22个符合要求的URL[6],通过浏览器请求获取页面超文本标记语言(HTML)代码,提取网页中需要的信息,将爬取数据存入excel表格中进行数据清洗处理。
网页抓取是每个网络爬虫程序最先执行的步骤,也是网页信息获取的关键。在爬取之前,要在命令提示符(CMD)中打开一个Chrome浏览器并启用端口给selenium调用。除此之外,还应明确需要爬取的信息种类,比如商品名称、价格、月销量和评价人数等,且要想快速爬取出网页中需要的商品信息,必须查看网页源代码了解信息具体所在位置。此外,针对网页反爬机制,需要根据网址的结构规律构造出一个满足翻页需求的URL。
通过爬虫获取网站的响应内容一般分为两种:非结构化的数据和结构化的数据。经过解析库转换后是一个复杂的树形结构,里面并不是所有的信息都有用,这时就需要进一步提取出有价值的数据,这个过程便是网页处理。网页处理的方式通常由正则表达式、XPath与BeautifulSoup来完成。这里以天猫商城搜索结果页面源代码分析,所要爬取的商品信息其实都隐藏在网页源代码中,有些是标签的属性,有些是标签里面的文本内容。在设计爬虫程序时,有很多解析库可以使用,根据需要选择合适的抓取工具来提取相应的信息,这样处理网页信息便会事半功倍。
数据存储的方式有很多种,其中使用广泛的是存入数据库。对于爬取大量的数据信息而言,数据库是一个非常不错的选择,但对于爬取数据量不大的新手来说,存入excel表中不失为一个不错的选择,后续操作起来也得心应手,特别是后面对数据的去重处理,去重的依据是商品的详情网址,因为详情网址上有且只有唯一的商品编号,即商品的ID。总的来说,数据储存模块主要借助python语言,将数据按照一定的逻辑规则导入数据库,为后续实现对数据的深入分析和解读、保证数据的完整奠定坚实的基础。
本次爬取天猫男装九分牛仔裤商品数据共计53 485条,其中,有效数据为53 326条,采集店铺数量为3 562家,数据类型包括商品名称、月销量、价格、评价人数、店铺名称以及商品详情链接,这些原始数据需要做进一步整理与数据挖掘。
数据整理可归纳为3个部分:数据收集、数据评估和数据清洗。因为天猫存在抓取全集数据的局限性,所以数据清洗方式为剔除缺失数据与数据去重。在采集的商品名称、价格、月销量、评价人数和店铺名称中,有任何一处出现数据缺失,则该商品全部信息都要剔除。数据去重则是以商品详情页的URL为依据,去除重复的商品。
2.3.1 市场整体情况分析
根据天猫平台提供的商品月销量和累计评价数两个指标,可对市场整体情况进行分析。天猫平台的商品月销量和累计评价数除了给买家看,也是卖家要多花心思的地方,如果这些数据比较好看,更能激发消费者的购买欲望,进而持续带动后续销量。通过对天猫平台男装九分牛仔裤月销量和累计评价人数的统计分析,在前20名销售单品中,近30天男装九分牛仔裤的销量峰值为1万多件,累计评价数峰值为11万,表明该商品近两年的购买热度较高。进一步观察发现,月销量前20名的店铺中有个别评论数与月销量差距较大,一种原因可能是商家刷单以积累信誉;另一种原因就是该商品在近期参加促销活动的新品销量较多,而买家的评论还没显示出来。
从前20名销售单品的价位来看,主要分布在150元以下,属于中低端消费价位。因此,男装九分牛仔裤在中低价位更受消费者喜爱,这个价位的市场会更大,但品牌竞争也会更激烈。
2.3.2 男装九分牛仔裤价位分析
根据男装九分牛仔裤价位总体分布情况,将价位区间划分为55元以下、55~100元、100~200元、200~355元和355元以上,统计各个价位区间的月销量、月销售金额和累计评价可知对应占比情况,结果如表1所示。由表1可见,30天男装九分牛仔裤市场总销量为640 274件,月销售金额达到62 174 016元,评价人数为5 437 886,相较于其他服装品类成绩较好,可见男装九分牛仔裤市场还是非常大,消费者购买力度和基数都很大。从价位销售分布情况来看,无论是月销量、月销量金额还是累计评价,主要的价位都在55~100元和100~200元这两个区间,且月销量、月销量金额以及累计评价在这两个价位区间总占比分别达到81.2%、80.3%和84.2%,占比均在80.0%以上。
表1 价位分布情况
2.3.3 品牌店铺竞争力综合分析
服装网店的经营者不仅需要了解市场的整体情况,还要对竞争品牌甚至是每个销售同品类服装店铺的营销数据有比较清晰的了解,与此同时,也应该对自己的店铺在同品类市场竞争中的地位和自身优劣情况有大致的了解,这样才能真正做到“知己知彼”,在日后的营销决策上会有更多的主动权。为了分析品牌店铺竞争力,本研究选择了月销量、月销量金额、评价人数、品种数、新品种数(新品种认定依据为月销量和评价数同时为0)等5个指标,计算月销量、月销量金额、评价人数的排名,并以这3个指标排名之和作为综合排名指标。分析结果如表2所示,给出了天猫平台男装九分牛仔裤整体排名情况。
表2 品牌店铺竞争力综合分表
在上述分析基础上,进一步分析了传统品牌的排名情况,在月销量、月销售额和评价数的3个排名中,在前50名品牌中,传统品牌店铺数量在5家以内;在前100名品牌中,传统品牌店铺数量在20家以内,其中,综合表现不错的传统品牌有花花公子、南极人、JackJones和A21,尤其是花花公子和南极人,在各排序中店铺数量最多,而这些都得益于其品牌授权的经营模式。其他传统品牌,如真维斯、七匹狼、海澜之家、李维斯和罗蒙等,市场竞争力并不理想,有的月销量甚至在个位数,说明在男装九分牛仔裤市场,传统品牌发展不均衡且竞争优势不明显。
(1)应用python的selenium自动化测试框架采集天猫男装九分牛仔裤全部商品信息,高效便捷,节省成本。通过selenium+chrome的方式,向服务器发起正常请求获取数据,可以很大程度地绕过天猫平台的多重反爬机制,但也限制了爬虫的速度。(2)天猫男装九分牛仔裤整体市场很大且消费者基数大,消费人群主要集中在55~200元中低端价位。(3)市场竞争力较强的品牌有越度龙、迈特优、Wvb、瑞威拉和古角牛。在传统品牌中,竞争力较强的是花花公子、南极人、A21、JackJones和优衣库。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!