时间:2024-05-20
陈 银,刘 维,熊伟程(贵州师范学院数学与计算机科学学院,贵阳 550018)
校园信息推送平台技术实现
陈银,刘维,熊伟程
(贵州师范学院数学与计算机科学学院,贵阳550018)
摘要:利用网络爬虫抓取想要的HTML页面,用正则表达式解析想要的HTML页面标签,以JAVA或者PHP来实现想要信息的功能,利用微信公众平台呈现信息,达到信息推送目的。
关键词:信息推送;网络爬虫;正则表达式;PHP与Java开发;微信公众平台
在科技飞速发展的今天以及“互联网+”的时代,各种各样的信息对我们来说显得非常重要。从学生角度来讲,主要有几大块,第一是学习资料信息;第二是考试资料信息;第三是考证信息;第四是生活娱乐方面的信息。对于这些信息,我们是如何获取呢?通常有报纸、pc机网络、手机App等。
对于报纸,现在好多学生都不喜欢看了,而手机App,获取信息,还得安装一个软件,这点好多人都不愿意,太麻烦了,对于电脑网络方式,不是每个人都有计算机。随着手机特别是智能机的普及,从手机获取信息成为最佳选择,但是又不要用App那样麻烦,这就出现了一个新型方式,就是近年兴起的微信平台。微信,目前有智能手机的基本上都有安装,故微信公众平台是一个不错的选择。
微信平台除了聊天外,其实重要的就是微信公众号,微信公众号是我们获取信息的途径之一,微信公众平台的开发就是我们实现信息推送的方式。而将各种各样的信息汇集在一起,这其中的重中之重,就是网络爬虫技术。
网络爬虫是将很多网页的信息进行抓取,存储在自己的数据库,再进行集中显示的过程。对于网络爬虫的技术实现,目前有很多种,常见的是Java和php,两种语言实现各有其特点,但都是跨平台性很好的语言,当然也有的人用.net实现,但是.net不开源,不跨平台,而我们的服务器绝大多数都是Linux系统,故.net不是一个实际生产的好的语言。
正则表达式就是记录文本规则的代码,包括普通字符和特殊字符(元字符和元字符序列),用来进行文本信息匹配的一种工具,在编程中经常用到,比如”d”用来匹配0~9的数字,正则表达式不但可以匹配数字,字母,还可以匹配HTM L页面信息。
对于php实现网络爬虫,只是网络爬虫的实现语言之一。PHP语言是开源免费的,不需要太多成本,入门相对会低一些,对于新手来说会容易些。
网络爬虫实现的一个重要技术就是正则表达式,PHP实现网络爬虫就是依赖正则表达式。
网络爬虫不但可以用PHP实现。还可以用JAVA实现,而实际应用中大多也是用的是JAVA来实现的。JAVA实现同样也用到了正则表达式,可以说正则表达式是网络爬虫等技术不可或缺的工具。
我们都知道JAVA语言比PHP更强大,支持的接口也多,这样在微信开发的过程中会容易些,故我们校园信息推送平台的实现选用JAVA来实现。
微信公众平台是近几年才兴起的新鲜平台,就是借助微信客户端来开发自己的应用程序,这样用户在不安装客户端的情况下,就可以使用自己的应用,这在移动应用时代是不错的选择。微信公众平台的开发其实就是移动应用程序的开发,属于二次开发,自定义菜单,加上调用接口,整合前面开发的程序,就可以实现了。
网络爬虫是校园信息推送平台的核心技术,有了这个技术,就可以自动的抓取想要的信息,再加上用JAVA和JSP来加以显示,微信来呈现,这样信息推送就实现了。
参考文献:
[1]福达,杨涛.正则表达式必知必会(修订版)[M].人民邮电出版社,2015.
[2]E.F.Friedl.精通正则表达式(第三版)[M].电子工业出版社,2012.
[3]柳峰.微信公众平台应用开发:方法、技巧与案例[M].机械工业出版社,2014.
[4]王振东.自己动手写网络爬虫[M].清华大学出版社,2010.
[5]郑阿奇.Java EE项目开发教程(第2版)[M].电子工业出版社,2013.
项目基金:贵州省大学生创新创业建设项目(项目编号:201414223002)
作者简介:陈银(1992—),男,贵州人,贵州师范学院计算机科学与技术专业学生。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!