基于深度学习的数据链路入侵检测

时间：2024-05-04

张一凡

（华北电力大学，北京，102200）

0 引言

入侵检测的作用是进行检测恶意行为和非法程序，与防火墙相辅相成一起来保证网络安全。[1]随着各地大数据中心的不断建立，许多企业需要通过多条数据链路来进行大量的数据传输，数据链路上传输流量过大会给不法分子以可乘之机通过入侵来进行破坏，引起严重的网络安全问题。如何保证网络安全是需要通过不断的研究来解决的问题。近些年流行的入侵检测技术在网络的两端都起到非常重要的保护作用，对于保证网络安全是一种比较先进的解决方式。

入侵检测已经经历了40年的发展。1980年，Ande rson[2]等人第一次提出入侵检测。2006年，Zh ang[3]等人使用随机森林模型进行入侵检测。2014年，Gao[4]等人使用深度信念网络进行异常检测。2017年，Vinayakumar[5]等人将卷积神经网络应用于入侵检测并取得了非常好的效果。在大数据时代，网络中传输的数据量大速度快，目前入侵检测领域中经常使用的传统机器学习方法和深度学习方法的准确率和精确率上都有待进一步提升。

本文提出一种将深度学习的全连接神经网络和机器学习的决策树相结合的模型。本模型分为数据预处理、抽象特征提取和训练分类三个模块，首先对检测数据进行预处理，再使用全连接神经网络来进行数据抽象特征的提取，最后使用决策树来进行最终的分类。通过最后的实验表明这种模型能够达到很好的入侵检测效果。

1 模型结构

■1.1 数据预处理

本文提出的模型的第一个模块是预处理模块，需要将进行检测的数据进行预处理，将数据通过特征映射和数字归一化得到预处理后的标准数据集。数据预处理能够将类型不同和不规则分布的数据转换成相同标准的数据。图1即为数据预处理的过程。

通过处理后的数据方便后续进行特征提取和训练分类的操作，为后续工作打下基础，通过预处理的数据可以实现更好的检测效果。

图1 数据预处理

■1.2 全连接神经网络提取抽象特征

本文提出的模型的第二个模块是抽象特征提取，通过堆叠三个不同参数的全连接层构成抽象特征提取模块。与普通的全连接神经网络不同，本模型使用全连接层通过激活函数来提取抽象特征，并没有使用softmax分类器进行分类，分类工作由下一个模块来完成。本文提出的模型没有直接通过浅层分类模型来进行分类是因为抽象特征比没有经过转换的数据特征能更好的体现特征含义，可以将特征中一些利用价值不大的信息进行删除，将最有用的特征提取出来，能够提升检测效果。没有使用softmax分类器进行分类的原因是，通过研究发现使用浅层分类模型的检测效果在入侵检测中可以略微好于softmax分类器，所以本文的模型是一种特殊的网络和分类器的组合。图2位全连接神经网络提取抽象特征的具体过程。

图2 全连接神经网络提取抽象特征

全连接神经网络从左面输入数据，到中间节点计算，最后右面输出数据。中间节点计算使用sigmoid函数作为激活函数，全连接神经网络中单个节点的计算都是先进行一个线性运算，再通过激活函数进行一个非线性运算来完成的。具体计算公式如下：

公式中zi表示线性运算，F()表示节点整体运算，a()表示激活函数非线性运算，wi表示权值，b为参数，xi为输入。网络层中每个节点都进行这样运算，上一层的输出作为下一层的输入，直到输出最后结果。通过全连接神经网络来提取抽象特征，为接下来进行训练分类做准备。

■1.3 决策树分类

本文提出的模型的第三个模块是训练分类，通过全连接神经网络已经将输入的数据转换成抽象数据，将全连接神经网络的分类器softmax替换成浅层分类模型，通过浅层分类器来进行入侵检测的分类，本文选取决策树作为浅层分类模型。图3为使用决策树进行训练分类的过程。

图3 决策树分类

决策树是一个与流程图相似的树形结构，决策树的每个分支节点表示一个特征的测试结果，根据这个结果来进行分类。分支节点的建立是通过信息熵来确定的。信息熵是由香农提出的，是用来解决信息的量化问题。通过计算特征的信息增益，将信息增益最大特征作为分裂节点。决策树的建立主要分为四步。第一步计算划分前抽象特征数据集的信息熵。第二步遍历所有未作为划分的抽象特征，计算信息熵。第三步选择信息增益最大的抽象特征，并且使用这个抽象特征作为节点来划分数据。第四步递归的处理划分后的子抽象特征数据集，从未被选择的特整理继续选择最优数据划分抽象特征划分子抽象特征数据集。当所有特征都划分完了或者信息增益足够小时停止递归。将抽象数据输入到决策树模型中通过多轮训练进行最终分类。

2 实验结果与分析

■2.1 数据集

本文使用KDDCup99入侵检测数据集是KDDCUP竞赛上使用的数据，这个数据集是一个非常经典的数据集，经常用于入侵检测模型的检测与比较。整个数据集大约由七百万条数据组成。这个数据集总共包含41个特征并可分为四大类。数据集主要包括四大类攻击，分别为DOS、R2L、U2R和PROBING，详细的分为39种攻击类型。对该数据集进行预处理时需要将第二个特征、第三个特征、第四个特征和分类结果进行独热编码处理，其余数据进行常规预处理。

■2.2 实验结果与分析

本文在入侵检测数据集上对提出的模型进行实验，并选取了多种入侵检测常用的算法模型来进行对比实验，选取的算法模型包括逻辑回归、朴素贝叶斯、KNN、决策树、随机森林、全连接神经网络和自编码器。随机选取数据集中10%的数据并且分为训练集、验证集和测试集来进行验证。本文实验结果如表1所示。

表1 入侵检测算法模型实验结果

通过进行实验对比，本文提出的全连接神经网络和决策树的结合模型在四个指标检测中都能到达比其他模型更好的结果，accuracy达到99.1%， precision达到98.5%，recall 达到97.1%，f1score达到97.8，此模型能够更好的准确的检测出入侵威胁，并且适合应用于检测数据链路中数据流量传递产生的入侵行为。

3 结论

互联网技术的快速发展使网络数据链路中的数据传输量不断增大，网络安全受大很大威胁。对于检测数据链路上传输的数据是否包含入侵行为愈发重要。目前基于数据链路的网络入侵检测在准确率和精确率上还有很大的上升空间。本文提出的全连接神经网络和决策树结合的模型在准确率和精确率上都有很好的提升，运用到入侵检测上能起到非常好的作用。本文通过实验进行对比也很好的验证了这一点。今后可以在入侵检测运行速度上和优化网络结构上进一步研究，使入侵检测模型能够更好的保证网络安全和数据安全。