网站结构优化系统研究

时间：2024-05-20

程舒通

1.浙江大学计算机科学与技术学院，浙江杭州 310027

2.杭州科技职业技术学院，浙江杭州 310012

0 引言

随着互联网和电子商务的发展，对网站技术的开发提出了更高的要求，建设一个更合理、注重个性化和相关性的网站成为研究的热点，很多的学者从不同角度、不同方向提出了网站结构优化技术[1-4]，也开发了相应的系统或模型，但是尚未从整体上去把握网站结构优化技术。本文设计了一个较为常用的网站结构优化系统，并仔细分析每一阶段的特点。

我们认为网站结构优化是指Web结构挖掘内容，其对象是网站本身的超连接，即对Web文档的结构进行挖掘。我们利用相应的算法，发现Web文档之间链接情况的有用信息，由于文档之间的超链接反映了文档之间的包含、引用或者从属关系，因此引用文档对被引用文档的说明往往更客观、更概括、更准确。

1 网站结构优化系统

本文设计的网站结构优化系统，包括4个主要阶段：分别是数据采集、数据预处理、模式发现和模式分析等。

图1 网站结构优化系统基本框架图

1.1 数据采集

网站数据采集是网站结构优化的前期步骤，也是后续工作的基础。简单的说就是获取网站的原始数据和相关信息。此阶段主要分为四种形式，Web服务器端数据采集、客户端的数据采集、应用服务器数据采集以及代理服务器端数据采集等。Web服务器段数据采集是指从Web服务器获取原始的日志文件，这些日志文件中记录很了多的网站信息。客户端的数据采集主要是根据客户对网站服务器的点击行为，产生的IP地址、点击时间、次数以及点击的序列，可以从中获取用户对网站不同页面的关注度的数据，从而得到相应用户的兴趣度。针对网站数据采集设计的方法和系统很多，但是最为常见的还是Web服务器端和客户端的数据采集，如文献[5]阐述了通用网上商店自动数据采集引擎的设计流程，提出了应用XML和关系型数据库的解决方案，为利用已有的大量廉价以至免费的数据信息。文献[6]提出基于用户浏览行为的客户端数据采集的方式，有效解决Web使用记录挖掘中数据采集问题。

1.2 数据预处理

从网站中获取的信息比较复杂，包含各种各样的错误和无效信息。这些数据需要提前预处理，转化成为适合数据挖掘的数据格式。数据预处理阶段包括日志预处理、数据清理、识别用户和路径修补4个模块：日志预处理模块包括将日志文件导人到数据库中，期间的字段根据日志格式中的字段进行选择定义；数据清理从Web日志文件中过滤无关的页面请求（如图形等）以及不成功的页面请求，在某些文献中被定义成为数据净化，就是指删除一些与Web日志挖掘无关的数据；识别用户是指从Web日志记录中找出访问网站的用户，可以采用IP+Agent机制实现；路径修补（或者称为路径完善）将由于缓冲而造成日志文件中丢失的重要用户访问链接记录根据站点结构补充完整，以便后续结构优化模块提供更为准确的用户访问记录。很多的学者对Web数据的预处理做了相应的研究，如文献[7]设计了用户识别、访问操作识别和路径完善三个步骤的关键算法。

1.3 模式发现

模式发现阶段包括序列模式挖掘、关联规则挖掘技术和聚类分类分析三部分，这三部分都是数据挖掘领域的研究热点。

序列模式挖掘是指挖掘相对于时间或其他模式出现频率高的模式。该技术被广泛地应用于各种序列数据集中，如以单词作为文档序列，研究在不同文档中单词序列的出现概率；网站点击流数据，用于挖掘用户的频繁点击模式等。

在网站结构优化中，关联规则主要用于发现用户之间、页面之间以及用户浏览页面和网上行为之间存在的潜在关系，即挖掘出用户在一个访问期间（Session）从服务器上访问的页面或文件之间的联系。

聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性，而分类也能起到相似的作用。

1.4 模式分析

模式分析是从一批数据中寻找普遍关系的过程。它逐渐成为许多学科的核心，从神经网络到所谓句法模式识别，从统计模式识别到机器学习和数据挖掘，模式分析的应用覆盖了从生物信息学到文档检索的广泛领域。我们这里所指的模式分析阶段是指网站结构优化过程中的最后一个重要步骤包括序列模式分析和频繁访问模式分析两部分。

最常见的模式分析形式是像SQL那样的知识查询机制，另一种方法是把Web使用数据装入数据仓库，以便执行OLAP 操作[8]。

2 网站结构优化中主要算法研究

梳理相关文献，不少学者和文献都从本系统中的某一阶段提出了相应的优化算法，有统计分析、人工神经算法、关联规则、决策规则、贝叶斯分类、最近邻分类、聚类分析、模糊集合、模糊逻辑、趋势分析，转折点检测等，这些算法不外乎在我们设计的系统里面，覆盖了每一个阶段的内容，其最终目的是寻找频繁序列，即用户点击流产生的频繁路径，在削减算法的时空占用基础上做到高效的数据挖掘。

文献[9]利用云计算的分布式处理和虚拟化技术的优势，设计一种基于云计算的Hadoop 集群框架的Web 日志分析平台，提出一种能够在云计算环境中进行分布式处理的混合算法。

文献[10]提出一种基于待挖掘站点首页的用户会话识别方法。该方法根据用户浏览站点的习惯，以站点首页作为用户新会话开始标识，并增强了用户会话的定义。

3 结论

网站结构优化作为当前一个非常重要的研究和应用领域，产生了许多非常有价值的研究成果。未来的研究方向是如何提高每一阶段算法的时间和空间效率，降低运算的成本。本文论述了网站结构优化模型及特点，目前完成了相应的理论研究，我们接下来的工作就是针对每一个阶段，对比前人的研究成果，设计出更为有效的算法。这对于开发一些目的性强的网站具有较大帮助（如电子商务网站），可以提高web用户的服务质量，使用户享用到满意的个性化服务。

[1]N akayama T, Kato H, Yamane Y.Discovering the gap between Web site designers’expectations and users’behavior[J].Computer Networks, 2000, 33: 823-835.

[2]Garofalakis J, Kappos P, Mourloukos M.Web site optimization using page popularity [J].IEEE Internet Computing, 1999：22-29.

[3]Wang YW, Wang DW, Design strategy of web page for e-supermarket, Jiang Pingyu et.al, 2001 International Conference on eCommerce Engineering 2001.Xi’an: China Machine Press，2001.

[4]Kim J, Yoo B.Toward the optimal link structure of the cyber shopping mall [J].Int J.Human-Computer Studies,2000, 52: 531-551.

[5]李煜, 陆建德.通用网上商店自动数据采集引擎的设计[J].计算机应用研究，2001(11)：100-103.

[6]李鹏，乔晓东，韩烽，王继田，梁健，张寅生.基于用户浏览行为的数据采集及应用[J].现代图书情报技术，2008(11)：56-59.

[7]何波，涂飞，程勇军.Web 日志挖掘数据预处理研究[J].微电子学与计算机，2011，28(4)：111-114.

[8]陈恩红，徐涌，王煦法.Web使用挖掘:从Web数据中发现用户使用模式[J].计算机科学，2001，28(5)：85-88.

[9]程苗，陈华平.基于Hadoop的Web日志挖掘[J].计算机工程，2011，37(11)：37-38.

[10]周爱武，程博，李孙长，夏松.Web日志挖掘中的会话识别方法[J].计算机工程与设计，2010，31(5)：936-938.