时间:2024-05-04
崔嘉
摘 要: 随着信息技术的发展,对等网络P2P信息流量经常出现偏离正常范围的异常情况,这里以决策树算法为基础,对P2P流量检测和流量异常时的检测技术进行研究。采用改进的C4.5决策树P2P流量检测模型,通过P2P流量异常检测模型对大量训练数据集的训练,实现了对错误的逐步修正,通过试验室仿真试验可知,经过选择网络流量特征后,基于改进的C4.5决策树的P2P网络流量分类器能实现较好的分类效果,分类检测率在94.6%~96.7%,较高的检测率说明采用改进的C4.5决策树算法能有效地对P2P流量进行检测,为研究P2P流量异常检测技术提供了参考。
关键词: P2P; 流量信息; 结构异常; 决策树; 检测技术
中图分类号: TN711?34; TP393 文献标识码: A 文章编号: 1004?373X(2017)09?0093?03
Abstract: With the development of information technology, the peer?to?peer (P2P) network information traffic often deviates from the normal range. The detection technology for P2P traffic detection and abnormal traffic is studied on the basis of the decision tree algorithm. The P2P traffic detection model based on improved C4.5 decision tree is used to train the massive training datasets by means of the P2P anomaly traffic detection model to modify the error gradually. The simulation test in laboratory was performed. The P2P network traffic classifier based on improved C4.5 decision tree has perfect classification effect after selecting the characteristics of the network traffic. The classification detection rate is 94.6%~96.7%, which shows that the improved C4.5 decision tree algorithm can detect the P2P traffic effectively, and provide the reference for studying the P2P anomaly traffic detection technology in future.
Keywords: P2P; traffic information; abnormal structure; decision tree; detection technology
0 引 言
目前,隨着信息技术的发展,对等网络(P2P)信息流量增长越来越快[1?3]。根据国内互联网流量模式报告显示,在整个互联网流量中,P2P流量占到70%左右[4]。近年来,经常出现网络流量偏离正常范围的异常情况,导致流量出现异常主要是由恶意网络攻击造成的,如DOS攻击、蠕虫传播、僵尸网络等攻击,同时由于网络偶发性线路中断、配置失误也会引起流量的异常,这就会造成网络服务质量下降,严重时会直接导致网络瘫痪[5]。
P2P大量占用互联网带宽,影响用户上网正常运行,检测管控P2P流量是网络管理难题[6]。因而在大规模网络环境中,对网络异常进行检测,同时对网络异常提供预警信息,对维护网络正常运行意义十分重大[7]。本文以决策树算法为基础,对P2P流量检测和流量异常时的检测技术进行研究。
1 对等网络P2P概况
对等网络P2P实质上属于分布式网络,参与者均可共享使用公共部分的一些硬件资源,如硬件处理和存储能力,共享资源的服务、内容由网络提供,节点可对这些资源进行直接访问,不需要经过任何中间实体。P2P最具有代表性的应用是进行文件共享,同时P2P的共享还有P2P计算、P2P形式的通信网络等。P2P与客户/服务器模型的区别是网络中节点可对其他节点资源或服务进行获取,还可提供资源或服务,这是P2P的基本思想。在P2P网络中,每个节点具有对等的权利、义务、服务、通信、资源消费。
2 P2P流量监控系统结构
P2P流量监控系统功能包括检测网络流量、控制网络流量两部分。对网络流量进行控制的前提是准确检测网络流量。在进行流量检测时,流量特征和协议特征要进行相互匹配,在未知流量匹配上以后,对其分类才能进行识别,P2P流量检测中必须具有协议特征库的建立。同时,进行流量控制操作必须具备前台管理界面,以便进行人机交互、流量控制策略的下发、流量识别结果的观察等,并在数据库中存储检测结果、控制策略信息、协议特征等,P2P流量监控系统整体结构如图1所示。
P2P流量监控系统工作流程:首先对网络应用流量数据进行全面采集,其次是建立协议特征库,对数据报文进行离线分析,同时提取其特征码,并建立协议特征库。然后检测网络流量,对经过流量监控系统的未知流量,通过匹配算法将未知流量特征与协议规则相匹配,如匹配成功,则作为该协议识别给流量。最后对已识别流量进行控制操作,完成阻断访问、限制流量速率。
3 基于监督的机器学习P2P流量识别算法
基于监督的机器学习P2P流量识别算法需要训练数据,训练主要有两步:训练进行集中学习,然后进行构造分类模型的测试;采用训练阶段模型进行未知数据的分类,计算识别准确率,令训练集为:
式中:表示输出类值。
在训练集中,找出输入和输出间的关系函数,这就是分类的目的,通过函数,输入可输出得到基于监督的机器学习P2P流量识别分类器如图2所示。
监督学习是训练决策树最常见的技术之一。这种决策树技术对事先确定分类系统给出的信息高度依赖。对于决策树来说,可通过分类系统辨别哪类属性提供的信息最多,可用决策树解决分类系统问题。
4 算法设计
4.1 C4.5多决策树分类算法
经过数据预处理模块,训练数据集生成决策树可处理属性的二维表形式。设训练数据集全部属性集合为。整个属性集PE,分成个小属性集,每个小属性集各自独立。属性所有不同取值集合为。生成的棵决策树为,数据分类为。表示数据集合,集合中第条记录用表示。表示训练数据及测试数据,第条记录用表示。系统分辨矩阵用对角矩阵表示,每项定义如下:
4.2 P2P流量异常检测
P2P流量异常检测的实质是通过训练大量数据,逐步对错误进行修正,形成精确预测模型。决策树建立完后进行数据集训练。训练数据集为TA,保存经过某节点P2P类训练数据的数量为;保存经过该节点类训练数据的数量为。
4.3 P2P属性关键度决策树分类算法
决策树生成后,经训练后,形成检测模型,原始TCP/IP数据包被从网络上截获,经过数据预处理后,TCP/IP数据由每棵子决策树对其进行判断,对判断结果进行加权处理,得到最优结果。第棵子决策树用表示,存储内部节点数据训练的P2P类统计数,存储内部节点数据训练的类统计数,第棵子决策树比率用表示,数据包在整个属性集的比率用表示,关键度多决策树分类算法流程图如图3所示。
根据属性差异,可建立棵子决策树,综合考虑全部子决策树属性对分类的影响,能对整个问题进行较好地反映,可使误报率降低,检测率提高。
5 仿真实验
本文的实验数据通过试验室仿真试验得到,仿真试验采用的软件为Sniffer,在实验室PC(CPU为Athlon64 X2;双核处理器4000+2.11 GHz;内存2 GB)对网络流量数据进行实时采集。在训练分类器实验中,采用定时定量的P2P流量Data1,Data1数据量较小,实验数据集见表1。
在测试分类器实验中,采用Data2~Data5对虚警率、漏警率进行严格测试,实验数据集见表2。
由表2可以看出,选择网络流量特征后,基于改进的C4.5决策树的P2P网络流量分类器能实现较好的分类效果,分类检测率在94.6%~96.7%。
6 结 语
本文以决策树算法为基础,对P2P流量检测和流量异常时的检测技术进行研究。通过试验室仿真试验,选择网络流量特征后,基于改进的C4.5决策树的P2P网络流量分类器能实现较好的分类效果,分类检测率在94.6%~96.7%,较高的检测率说明采用改进的C4.5决策树算法能有效地对P2P流量进行检测,为今后研究P2P流量异常检测技术提供了参考。
参考文献
[1] 柴琦,曹旭东,王洪蕾,等.P2P流量监测系统的设计[J].电子设计工程,2016,24(11):64?67.
[2] 谢生锋.基于数据挖掘的P2P流量检测技术研究[J].计算机与网络,2015(13):71?73.
[3] 闫佳,应凌云,刘海峰,等.结构化对等网测量方法研究[J].软件学报,2014,25(6):1301?1315.
[4] 王菁菁,林琛,陈珂,等.基于MapReduce的Flash P2P VoD系统异常监测[J].厦门大学学报(自然科学版),2013,52(4):459?465.
[5] 李建.基于流量的P2P僵尸網络检测[J].计算机时代,2016(5):45?48.
[6] 马丽娜.基于机器学习的GTalk流量识别系统的设计与实现[D].哈尔滨:哈尔滨工业大学,2013.
[7] 谭红春,杨松涛,阚红星.校园网P2P流量综合检测技术研究[J].长沙大学学报,2015,29(2):70?72.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!