基于K,近邻算法的网络敏感信息过滤方法

时间：2023-08-22 17:45:06 来源：网友投稿

成彦衡，黄宇

（1.连云港市第四人民医院，江苏连云港 222000；
2.成都理工大学工程技术学院，四川成都 614000）

信息时代的迅猛发展，使信息能够更加及时和广泛地传播到各种社交平台，为人们实时提供最新的信息。但是，当今网络技术的飞速发展，为黑客提供了可入侵的空间，其通过各种手段在网络上发布一些虚假信息和非法传播内容，给网络信息共享带来阻碍，严重危害了网络环境的健康发展。因此，有效过滤敏感信息可以保护网络环境。目前，采用的过滤仿真方法有两种，一种是陆态网络敏感信息多级纵深过滤仿真方法[1]；
另一种是决策树识别算法[2]。在研究大量网络敏感信息时，上述两种方法均受到数据稀疏性的影响，即相似性计算不精准，从而导致敏感信息不能被完全过滤。为此，该文提出了基于K 近邻算法的网络敏感信息过滤方法。

1.1 网络敏感信息稀疏性分析

由于K 近邻算法不需要用任何方法预测空格的分数，因此，K 近邻算法对数据稀疏性有很好的适应性[3]。假设网络中有v个用户、c个项目，总评分数为T，在K 近邻算法中，数据稀疏度为T/(vc)，也就是数据集本身具有稀疏性[4]。数据稀疏度愈小，数据集愈稀疏。用k＇TT(ci)代表用户ci的动态k近邻，则提出的K 近邻算法中，由于每个用户的近邻数最大为k，即：

设算法中的所有评分集合为Y，其中，|Y|≤T，即过滤过程中用到的评分数通常小于目前的评分数T。因此，在K 近邻算法中用到的评分实际数据稀疏度可表示为：

由式（2）可确定网络敏感信息的稀疏性。

1.2 网络敏感信息分类

基于K 近邻算法的网络敏感信息分类包括三个步骤：

步骤一：将网络敏感信息集G划分为k个大小相等的信息子集G1,G2,…,Gk；

步骤二：将Gi作为检验的信息集，将剩余的k-1 个子集作为训练的信息集，计算Gi作为待检验信息集时的分类精准度P(i)如下：

式（3）中，M代表数据集中的样本数量；
Xj代表检测的样本数量。

步骤三：迭代处理步骤二k次，获取最终分类结果。

为了筛选敏感信息，必须具备过滤标准，所以要区分敏感词的内容和等级。设立敏感词语库，按照敏感词的类型，对敏感词进行分类。将网络敏感信息分为政治、色情、暴力等三大类信息，这些敏感词影响了国家的发展和社会的稳定，因此，需要过滤这些信息。针对网络敏感信息的过滤，首先要筛选出网络敏感信息，然后构建敏感信息决策树，最后利用K 近邻分类算法设计过滤步骤。

2.1 基于K近邻算法的敏感信息决策树的构建

以敏感词的首字母为依据，构建决策树的根目录子树，将根目录子树上存在的敏感词添加到敏感信息数据库中，以便提取。对于不存在根目录子树上的敏感词，需进行剔除[5]。

由于在构建的决策树中存在多个子节点，这些节点信息除了敏感信息外，还存在伪敏感信息。因此，需对其进行非叶节点处理[6]。基于K 近邻算法的敏感信息决策树构建步骤为：

步骤一：在敏感信息数据库中isLeaf() 有三类数值，分别是isLeafa非叶节点数值，isLeafb叶节点数值，isLeafc伪叶节点数值。对于这三类数值，根据根目录子树中每个树枝对应敏感词的首字母进行排序；

步骤二：分析第一个敏感词的第二个或第三个字母，当敏感信息数据库中的敏感词的最后一个字母没有子节点时，就变成了真实的叶节点。当敏感信息数据库中的敏感词的最后一个字母有子节点时，就变成了伪叶节点[7-8]；

步骤三：根据子树中的敏感词拼音，及时更新信息库，在决策树相应节点上添加敏感信息，并过滤相似的敏感词，由此完成敏感信息决策树构建[9]。

在敏感信息数据库中构建的决策树，能够减少数据在敏感信息数据库中所占的内存，减少伪敏感信息提取时间。

2.2 网络敏感信息过滤步骤设计

利用近邻分类算法结合决策树对网络中的敏感信息进行集中过滤，结合K 近邻算法设计网络敏感信息过滤步骤，如图1 所示。

由图1 可确定网络敏感信息过滤的具体步骤：

图1 网络敏感信息过滤步骤

步骤一：计算特征值协方差矩阵的累积权重，将敏感词库中的敏感词进行分类处理，假设敏感词库Q中包含了a×b文本，对该文本量化处理后，可得到矩阵Qa,b，求出该矩阵的协方差[10-11]。根据求取结果分析敏感词特征向量，并用x1,x2,…,xn,y1,y2,…,yn来表示，由此计算的特征值协方差矩阵的累积权重，可表示为：

式（4）中，k∈n表示矩阵维数。

在此基础上，对敏感信息决策树中的敏感词特征和求取累积权重进行分析，为建立反敏感信息库提供逻辑支持[12]。

步骤二：构建反敏感信息库

加权每个特征值方差矩阵，以网络敏感信息为区域主题，建立敏感信息本体，通过对所有敏感信息的语义分析，形成反敏感信息库[13]。

步骤三：计算相似度

引入时间和主题相关性作为筛选参数，首先，过滤有关敏感信息的时间。

时间t权重的计算公式：

式（5）中，φ表示时间常数；
t1表示信息存储时间；
t2表示信息管理时间。

在权重大于设定阈值时，进行主题相关性分析[14]。

在时间权重确定的情况下，计算某一文本里面敏感词的主题相关性大小如下：

式（6）中，σ(i,u)表示敏感词i在该文本u中出现的次数，σ(j,u)表示敏感词j该文本u中出现的次数，N代表爬取的总文本数，X表示存在敏感词i的文本数量[15]。

如果主题相关性对应的数值小于或等于设定的阈值时，就会被存储在一个敏感信息相关的信息库中，同时提取相应文本；
如果主题相关性对应的数值大于设置的阈值，则需将其归入队列管理模块中[16]。

根据上述原理，计算敏感信息相似度为：

式（7）中，ui表示在文本u中第i个敏感词；
ri表示在敏感主题中的第i维向量。

按照URL 队列的优先次序对敏感信息进行排序，敏感信息排序越靠后说明与主题的相关性越低，需予以剔除。为此，将排序在最后的敏感信息抓取出来进行剔除处理。

基于计算的相似性，利用词库筛选出合适的文本信息。词汇库的构建主要是对敏感事件进行搜索，筛选出敏感事件的相关数据，获取每个事件的标题和相关敏感信息。该方法根据网络敏感信息的分类标准，利用K 近邻算法，选取有显著性关键词的关键词作为敏感词库。词汇库还将定期进行更新，通过词汇库中的词汇表进行语义分析，剔除相关性不强的词汇，过滤网络敏感信息。

3.1 实验设置

3.1.1 实验过程

将所提的基于K 近邻算法的过滤方法与传统的纵深过滤仿真和决策树识别算法进行对比分析，在解决敏感信息过滤问题的比较中，设计对比实验。

3.1.2 评价指标

1）平均绝对误差MAE

平均绝对误差是根据网络信息敏感度预测和实际评分之间的评估结果得到的，MAE 值越小，说明预测结果越精准，即网络敏感信息过滤效果越好。

平均绝对误差计算公式为：

式（8）中，ηi表示实际评分值；
ιi表示预测评分值；
n表示项目数量。

2）标准化平均绝对误差NMAE

以平均绝对误差作为指标进行分析时，需要消除评分范围的影响，因此，应对平均绝对误差进行标准化处理，得到标准化平均绝对误差。

标准化平均绝对误差计算公式为：

式（9）中，Lmax表示评分上限值；
Lmin表示评分下限值。

3.2 实验结果与分析

分别使用三种方法对比分析平均绝对误差，对比结果如图2 所示。

图2 三种方法评分绝对误差对比分析

由图2 可知，使用纵深过滤仿真和决策树识别方法，随着最近邻居用户数量增加，平均绝对误差随之减小，最小值分别为0.39 和0.43。使用基于K 近邻算法的过滤方法，随着最近邻居用户数量增加，平均绝对误差随之减小，最小值为0.19，由此可知，使用基于K 近邻算法的过滤方法平均绝对误差最小，说明网络敏感信息过滤效果较好。

为了消除评分范围的影响，需对比三种方法的标准化平均绝对误差，对比结果如图3 所示。

由图3 可知，三种方法在消除评分范围影响后，标准化平均绝对误差都有所增加，但使用基于K 近邻算法的过滤方法，标准化平均绝对误差仍然最小为0.20，说明其网络敏感信息过滤效果较好。

图3 三种方法标准化平均绝对误差对比分析

在K 近邻算法的基础上，通过构造敏感信息决策树对敏感信息进行过滤。通过对敏感信息进行分类和相似度计算及时发现伪装信息，得到更加全面、敏感的网络信息。然而，该方法在实际应用过程中，仍存在不足，有待进一步完善。选择主题相关性阈值时，需要从多个数据源中抽取大量的数据，并进行大量的实验后再确定最佳阈值。根据控制变量优化原理，优化了不同的参数，进一步优化了过滤方法。

猜你喜欢决策树分类节点CM节点控制在船舶上的应用机械工业标准化与质量(2022年6期)2022-08-12Analysis of the characteristics of electronic equipment usage distance for common users国际眼科杂志(2021年9期)2021-09-15分类算一算数学小灵通(1-2年级)(2021年4期)2021-06-09基于AutoCAD的门窗节点图快速构建装备制造技术(2020年2期)2020-12-14一种针对不均衡数据集的SVM决策树算法成都信息工程大学学报(2019年3期)2019-09-25分类讨论求坐标中学生数理化·七年级数学人教版(2019年4期)2019-05-20决策树和随机森林方法在管理决策中的应用电子制作(2018年16期)2018-09-26数据分析中的分类讨论中学生数理化·七年级数学人教版(2018年6期)2018-06-26教你一招：数的分类初中生世界·七年级(2017年9期)2017-10-13基于决策树的出租车乘客出行目的识别中央民族大学学报（自然科学版）(2016年4期)2016-06-27

推荐访问:近邻算法过滤