时间:2024-08-31
邓甜甜,熊荫乔,刘建娥
基于计费系统的校园网用户行为分析*
邓甜甜1,熊荫乔1,刘建娥2
(1.长沙大学网络信息中心,湖南长沙410022;2.长沙职业技术学院经济贸易管理系,湖南长沙410217)
上网模式和上网质量对学习成绩有一定的影响.通过计费系统的用户访问日志,对学优生和学困生的上网模式进行分析,试图找出上网时长、上网内容与学习成绩之间的关系.研究表明:大学生较为合理的上网时长约为6.4小时/天;上网时长平均达到8.6小时/天及以上,将影响正常学习;上网内容丰富,有助于提高学习成绩;游戏时间占上网时间的60%及以上,将严重影响学习成绩.
校园网;用户行为;计费系统
网络已成为在校大学生获取资讯、展示自我和娱乐休闲的重要场所.据CNNIC《第31次中国互联网络发展状况统计报告》统计,截至2012年12月底,我国大专以上学历人群上网比例接近饱和.而上网质量对学习成绩具有一定的影响.对比分析学优生与学困生的上网行为模式,能为定量研究上网质量与学习成绩的关系提供数据支持,有助于高校开展教学活动和思想教育活动.
目前,研究人员主要采用问卷调查法,获取高校学生的上网行为数据.该办法需要用户主动参与,覆盖范围有限.同时获取的数据带有个人主观臆断,并不能准确地反映用户的上网情况.通过校园网计费系统获取的用户访问日志,覆盖面广,更能准确的反映用户上网行为.本文通过校园网计费系统获取用户访问日志,对日志数据进行统计、过滤,并结合开放式分类目录ODP[1],对用户的上网内容进行分类.研究结论采用折线图、直方图等方式进行描述,简单直观,易于理解,对高校学生工作具有参考价值.
我校校园网始建于2002年10月,经过数年的升级扩建,截至2013年6月止,注册用户23000余人,最高在线用户达8241人.校园网出口总带宽为1310M.
校园网用户需通过计费认证的方式访问外网资源.学校校园网拓扑结构图如图1所示.学校采用北京城市热点4.5. 1版本的宽带计费系统,全校用户近3个月的上网访问信息均被记录在计费系统的用户访问日志中.
图1 长沙大学校园网拓扑结构图
本文分析学优生与学困生的上网时长和http访问内容,以此掌握该两类校园网用户的上网行为模式.涉及的数据包括该两类学生的上网账号以及对应的用户访问日志.
2.1学生上网账号
我校学生的上网账号为自己的学号.学校学生工作处网站公布了2012-2013年度国家助学金领取者名单和2012年下学期补考重修信息表.通过这两份数据,可分别获取学优生和学困生的学号信息.两份原始数据对应的学生数目分别为:2339和4571.从中剔除大一、大四学生,以及重修科目3门及以下的学生,有效学生数目分别为:1327和511.每份文档随机抽取200个学号进行后续分析工作.
2.2用户访问日志
计费系统使用文本文档记录用户访问日志.文档名称为日志的最初写入时间,用户每发送一条HTTP请求,便形成一条日志记录,满20M便自动生成一个新的日志文件.本文截取了2012年12月1日至7日一周的用户访问日志,共计119个文档,2280M数据量.日志格式如表1所示.
表1 用户访问日志格式
一条日志数据如下所示:
0 0 2012-12-01(6)01:00:31
wenda.qihoo.com/user/index?userid=21895645&ref=360safe&task=0
201002229 60D81997B0E1 172.22.34.69 80 1 110.75.13.21 58003 0 0.0.0.0 0
如上所示,账号为201002229的用户于2012年12月1日访问了wenda.qihoo.com网站信息.其中,用户MAC地址为:60D81997B0E1,用户IP地址为:172.22.34.69,用户端口号为80,目的IP地址为110.75.13.21,分配的目的端口号为58003.
由于数据量过大,因此采取的清理策略是:先清用户再清访问内容.分别以获取的两类学生上网账号为查询条件,从用户访问日志中查询信息并保留查询结果,在查询结果中进一步清理访问内容.
由于本文仅关注用户上网时长和http访问内容,所以在数据选择上,清除了日志中用户端口号为非80的记录以及请求信息为图片、CSS等网页格式的记录.用户访问日志的清理内容如表2所示.
表2 用户访问日志清理内容
3.1上网时长与学习成绩关系分析
在计费系统中,分别统计每位学生在2012年12月1日至31日的上网时长,再按上网时长区间进行人数统计,形成两类学生上网时长区间分布图.如图2所示.
图2 两类学生上网时长区间分布图
由图2可知,学优生与学困生的上网时长有较为明显的区别.69%的学优生当月的上网时长位于5000~15000分钟的区间内,59%的学困生当月的上网时长位于10000~20000分钟的区间内.对上网时长区间设置权值[2],利用加权平均数算法,分别计算两类学生的上网时长平均值:学优生平均上网时长为11600分钟/月;学困生平均上网时长为15400分钟/月.
对两类学生的上网时长进行CDF统计[3].两类学生上网时长累计分布图如图3所示.
图3 两类学生上网时长累计分布图
基于图3,设上网时长为T(单位:分钟/月),学优生累计概率为Py,学困生累计概率为Pk,则有如下关系表达式[4]:
上网时长小于10000分钟/月的概率,学优生为为0.43,学困生为0.2;上网时长小于15000分钟的概率,学优生为0. 76,学困生为0.46;上网时长小于20000分钟的概率,学优生为0.92,学困生为0.79.
综上所述,上网时长与学习成绩的关系阐述如下:(1)大学生较为合理的上网时长约为6.4小时/天.(2)上网时长平均达到8.6小时/天及以上,将影响正常学习.
(3)上网时长小于8小时/天的概率,学优生为0.76,学困生为0.44.
3.2访问内容与学习成绩关系分析
由于用户访问日志数据量大,故仅随机选择了两类学生中各80位学生,进行访问内容的数据分析,涉及的文本文档数据量共计22M.同时,访问日志中的url地址信息量大,且种类繁多,只能根据目的IP地址获取访问内容.
分析的过程是这样的:首先,获得每类学生访问量最大的前20个目的IP地址;其次,依据目的IP地址获得网站域名地址;最后,通过开放式分类目录ODP等方式划分网站所属类型.
然而,通过日志记录中的目的IP地址,不能直接获取到网站域名地址.这是因为:
(1)为提高访问速度,网站多采用内容分发网络CDN和镜像技术,使得:一个IP地址对应多个域名或一个域名对应多个IP地址.
(2)网站服务器可能映射了多个网络运营商的IP地址.
为解决上述问题,笔者所采取的方法是,结合多种办法相互验证,得出最为合理的结果.采用的办法包括:
(1)通过用户调查,获取我校校园网用户经常访问的网站域名.在不同的线路使用PING命令获取对应的IP地址,与日志文件中的目的IP地址进行比对.
(2)通过站长工具、微软bing等工具,获取IP地址对应的域名地址.
(3)在日志文件中获取对应的url地址,其地址最前面的信息即为网站域名地址.
通过上述方法,再结合开放式分类目录ODP,可获取到域名地址所对应的网站类型.表3为节选的部分访问网站数据统计表.
表3 部分访问网站数据统计表
从访问网站数据统计表中截取数量和网站类型字段,分别生成两类学生的上网内容统计图,如图4、图5所示.
图4 学优生访问内容统计图
图5 学困生访问内容统计图
由图4、图5可知,学优生上网内容丰富且相对均衡;学困生上网内容相对单一,花费在游戏上的时间比重过大.
针对上网内容是否均衡,笔者对两类学生的上网内容所占比重的差值进行分析.分析结果如图6、图7所示.
图6 学优生上网内容比重差值图
对比图6和图7,学优生各项上网内容比重的差值平均为2.5%,最高差值不超过8%;学困生各项上网内容比重的差值平均为10%,最高差值不超过46%.
图7 学困生上网内容比重差值图
综上所述,可得出如下结论:
(1)学优生较为理性的对待网络资源,获取的资源内容丰富、形式多样.
(2)学困生缺乏必要的上网规划,沉迷游戏的时间占上网时间的64%.
(3)各项上网内容所占比例之差在10%之内,是较为健康的上网模式;比例之差超过40%,将对学习成绩造成负面影响.
本文结合计费系统的用户访问日志,分别对学优生与学困生就上网时长、上网内容与学习成绩之间的关系进行分析并并以此建立关系模型.得出的结论包括:大学生较为合理的上网时长约为6.4小时/天;上网时长平均达到8.6小时/天及以上,将影响正常学习;上网内容丰富,有助于提高学习成绩,游戏时间占上网时间的60%及以上,将严重影响学习成绩.
进一步分析学生的上网时间规律,找寻有效的办法获取访问的网页内容,是我们将进行的下一步工作.
[1]张世乐,魏芳,费仲超.基于代理的互联网用户行为分析研究[J].计算机应用与软件,2011,(8):138-140.
[2]杨岳湘,苏国荣,邓劲生.基于用户行为分析的校园网搜索引擎排序方法[J].计算机工程,2010,(24):275-277.
[3]杨家海,吴建平,安常青.互联网络测量理论与应用[M].北京:人民邮电出版社,2009.
[4]胡俊华,魏芳,平金玉.3G无线网络条件下的用户行为分析[J].计算机应用与软件,2012,(3):144-148.
Analysis of the Behaviors of Campus Network Users Based on Billing System
DENG Tiantian1,XIONG Yinqiao1,LIU Jian’e2
(1.Network Information Center of Changsha University,Changsha Hunan 410022,China;2.Department of Economic and Trade Management,Changsha Vocational&Technical College,Changsha Hunan 410217,China)
Onlinemodel and quality have some influence on students’academic performance.By analyzing the onlinemodel between good students and those with learning difficulties on the basis of user access log of the billing system,the study attempts to explore the relation between academic performance and online time aswell as the information being searched.The study shows that reasonable online time for college students is about6.4 hours per day.Surfing the internet for over8.6 hours per day,students’regular study would be disturbed.When the information acquired through internet is abundant,it is helpful for students to improve their academic performance while if60%of time online was spent in computer games,their study will be badly affected.
campus network;user behavior;billing system
C912.6
A
1008-4681(2014)02-0116-04
(作者本人校对)
2013-10-31
邓甜甜(1981-),女,湖南永州人,长沙大学网络信息中心讲师,硕士.研究方向:用户行为分析、软件工程.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!