数据挖掘技术在Web预取中的应用研究

时间：2024-05-04

崔镇涛内蒙古师范大学计算机学院

数据挖掘技术在Web预取中的应用研究

崔镇涛内蒙古师范大学计算机学院

本文通过对数据挖掘技术的深入研究，将数据技术应用在Web预取中，以期减少网络的延迟。本文的重点就是介绍数据挖掘中的相关算法在Web预取中的应用。

数据挖掘关联算法 Web预取互联网

随着互联网用户的急剧增加，以及原有的Web服务和天然存在的网络延迟，我国互联网正在变得越来越拥挤，需要进一步提升技术水平才能够更好的满足日益庞大的需求。将数据挖掘技术应用到Web预取中，就是通过相关算法首先对用户需求进行预判，然后将用户可能浏览的网页存储到本地缓存中，当用户真正需要浏览这些内容时，可以直接调取缓存中的网页信息，或者只需要缓存之前没有预定的内容，如此就可以大幅度减少缓存时间，提升用户体验。

1 数据建模前期准备

要想将数据挖掘技术应用在Web预取中，第一步要做的就是对用户行为以及兴趣进行分析。也就是说，将关联规则算法应用到分析用户以往的Web使用日志上，以用户的互联网使用记录为基础进行建模，增加机器学习，最终达到预测用户行为的目的。

Web使用日志就是指用户使用互联网的数据记录，以此为基础应用数据挖掘技术，建立相关的关联模型，发现用户的互联网使用规律和浏览兴趣，就可以此为依据建立起具有相当准确性和价值的用户分析模型，为后续的Web预取打下基础。Web使用日志数据挖掘处理的对象其实是所有用户与互联网的交互记录，用这种技术处理Web使用日志，就能够挖掘出其中的规律，然后建立起相匹配的模型，然后进行用户行为预测，去互联网上寻找与用户兴趣相匹配的内容，进行预取，加快用户浏览互联网的速度，减少不必要的时间浪费。

在这一阶段，一般使用Aprior算法，找出在一个固定的周期内，用户在服务器上访问特定网页的次序，然后将信息进行筛选和处理，储存起来。这一算法的工作流程如下图所示：

2 数据建模

在进行正式的建模工作之前，需要得到上一步收集的各种数据，也就是Web使用日志。日志文件并不能够直接处理，需要对格式进行转换，因此就首先需要日志文件的预处理工作，包括对数据进行筛选，去掉无意义或者重复的数据，得到简练、争取的用户使用记录数据，接下来就可以进行数据建模了。

建模过程就是使用数据挖掘技术中的关联算法，对预处理后的数据进行计算分析，从数据中发现特殊的模式集合。数据挖掘技术是计算理论、计算技术和计算机硬件不断发展之后产生的一种新兴技术，使用数据挖掘技术，可以在规模庞大的数据中分析出隐藏的、不被人所察觉的，同时又对科学决策和预测起到重要参考意义的知识和规则，根据这些成果，就可以科学合理预测用户行为。本文建模使用的是关系规则算法，分析用户的兴趣关联规则。兴趣关联规则体现出的是用户使用互联网的兴趣之间的递进关系，通过对数据模型中的缓冲数据删繁就简，表明不同网页之间的链接关系，使用这种算法能够直接表现出用户兴趣之间的递进关系。为了提高数据挖掘的效率，减少不必要的资源浪费，再简化缓存区数据之时，要对一些低价值或者无价值数据进行清除，比如各种留存下来的静态和动态图片，还有页面中的脚本程序。为了节省资源以及降低算法复杂程度，在建立数据模型之时，不需要考虑用户兴趣之间的传递关系，同时对于一些简单的兴趣关联规则模型，关联分析法一般会比较合适。因为数据挖掘技术是在巨量的数据之中挖掘规则和信息，因此一般需要较长的处理时间，因此并不适合用于在线预测用户的行为，其解决办法就是预先预测。

为了保证所预测的用户行为模式正确性高，需要在预测过程中不断对模型的参数和算法细节进行调整。当得到一定的预测结果之后，就可以将这些结果储存起来，放入库中，并且使用用户其他的使用数据进行进一步验证，进行模型的验证和测试，如果验证结果超过了预定要求，就可以判定为可用。上述过程可以用下图来表示：

上述数据建模过程，就是根据用户的Web使用日志进行数据挖掘分析，找出用户兴趣与行为方式，并且根据用户使用习惯，对用户的行为进行预判的过程。

3 模型改进与机器学习

当一个浏览器加入了数据挖掘算法后，就可以进行有效的Web预取，因此就以现有浏览器为基础对其实现机制进行改进，改进的方向有提供用户的Web使用日志以及访问记录到专门的数据存储位置，在用户使用互联网的空闲时间，启动分析模型，对用户接下来使用的网页进行科学合理的预测，找到最有可能访问的一个或者少数几个网页进行预先缓存，当用户真的是用了预先缓存的这些网页之后，就可以从缓存之中直接调取，供用户使用以减少时间，如果用户没有访问这几个网页，那么就记下用户的这次行为，以便后期对模型进行修改进行数据储备。经过这个过程，就可以大幅减少因为网络延迟和服务器延迟带来的使用卡顿现象，从而减少用户等待时间内，提升用户的使用体验。具体的过程如下图所示：

将数据挖掘技术应用到Web预取之中，就是机器的自我学习与调整。但是应当注意到的是，由于算法目前还存在着很大的局限性，同时人与人之间的差异性极大，而用户使用互联网的随意性非常高，在使用关联算法进行用户行为预测之时，初期产生的误差可能会非常巨大，一开始预测的准确性可能会很低，甚至有可能会造成缓存数据无用而占用存储空间影响系统运行效率或者是对网络带宽的浪费。鉴于此，改进机器学习算法，改进关联算法，改进所有的数据挖掘算法就会是一项长期的、艰巨的工作，目的就是要不断提升结果的准确性。可以预见的是，当预测结果的精确度达到一定程度之后，数据挖掘技术在Web预取中的地位会越来越重，应用范围会越来越广，同时也会给用户带来越来越好的用户体验。