首页 > 文章中心 > 正文

浅谈高校网站检测系统的设计

浅谈高校网站检测系统的设计

1近似镜像网页与检测概述

1.1高校网站群近似镜像网页的分类

(1)在某些相同的时间点,比如五四青年节,容易在众多的二级部门出现很多相似的网页信息,比如各部门一起参加了学校的五四青年节晚会,得到的网站新闻信息就会近似,甚至雷同。

(2)相同的引用网页内容。比如财务处了新的财务管理制度,如果下面二级部门做了引用,那么财务处的这些管理制度方面的网页内容就会造成重复。

(3)新旧网站改版或者迁移的时候,如果老网站没有及时在网络上去除,就容易出现重复的网站和重复的信息。

(4)相同内容,不同格式的网页文件,也会一定程度上造成近似网页的形成。比如一些网页是html格式的,另外一些网页是jsp格式的,这样重复的内容,就造成了近似网页的增加。

1.2近似镜像网页的检测综述

近似网页检测算法是全文分段签名的近似镜像网页检测算法,通过检测网页分段的签名来识别近似网页。Google搜索引擎发现,全世界35%的网页是近似的。伯德等人提出了网页的相似度和包容度等指标与定义,通过计算不通网页之间相似度与包容度来判别网页的重合程度。中国的天网搜索系统,提出了文档的向量化表示方式,并借此来对近似网页进行区分,也取得了很好的效果。另外,一种网页预处理的方法,其预处理包含以下几个步骤:网页预净化,网页特征值消重和网页最终整合,并最后将所有网页都转化为一种通用的文档格式,这种算法已经在天网搜索引擎系统的网页消重和网页自动分类系统中得到应用,并已经逐步得到推广。

2高校网站群近似网页检测系统的设计

2.1分析

高校网站群的推广已经有数年了,网站群由于其使用方便、便捷,获得了广大师生的认同,也极大的推动了高校信息化的发展。但从高校网站群建立开始,由于历史数据不断沉积,近似网页的数量也在不断增加,若是人工去查找、判别,难免费时费力,如何能快速检测识别,具有一定的现实意义。

2.2近似网页检测功能模块设计

(1)近似网页标准定义模块,此模块负责整个近似网页的评判标准。提供给用户一个清晰明了的输入界面,页面布局具有很好的友好性。用户将按照系统提示,去对需要检测主题进行一个严格的定义。比如针对信息公开的内容,除了要输入信息公开需要抽取的一些关键字之外,还需要提供网页检测的条件,比如信息来源、作者、发表时间、发表部门、所在网站等,根据这些条件对重复的网页进行过滤,最后能得到用户所需要的信息。

(2)近似网页检测模块,这个模块承担着整个系统的实际工作,它必须要完成近似网页的检测与评判。结合近似网页的研究现状,本系统采用基于生物特征(比如指纹等)识别的文档识别算法,原理就是将每个文档,都计算出各自的特征值,然后再根据网页的特征值去定义每个网页。如果根据关键字搜索得到的网页有多个,然后就会用计算得到的向量去比对,如果各个网页的向量值都比较接近,即可认为这两个网页是近似的,予以排除。在这里我们可以用信息抽取技术先将网页抽取出来,然后再聚类分析,再定义每个组中的网页对比,判别是否为相似网页。

(3)网页信息抽取展示模块,是相似网页检测系统的最后一个模块,也就是将正确,无重复的网页抽取出来之后,再在一个统一的平台上。这个一般通过和网站群的接口进行交互,即网站群给网页抽取系统开放接口,网页信息抽取展示模块即可将抽取到的网页远程到网站群的专门网站上。

2.3使用效果评价

本文选取了一个高校网站群系统做为测试网站,总共搜索到了3400多个网页,这么多的网页来源于五十多个二级部门网站及教学网站。这些网页都用计算机程序预先进行了处理,并得到了每个网页的特征值。本系统安装在windows2003的服务器上,内存为4G。在特定的活动里面,选定“文明创建”为选取标准,最后搜索到了98条与文明创建有关的,并且无重复的网页,按照的时间新旧进行排序,自动生成了学校文明创建网站新闻条目,省去了大量的人工。

3结束语

本文设计了一个基于高校网站群的近似镜像网页检测系统,改进了以往近似镜像网页鉴别方式,设计了基于高校网站群的近似网页检测系统。系统分三个主要模块:近似网页标准定义模块、近似网页检测模块和网页信息抽取展示模块。通过搭建实验平台,并经过学校文明创建活动的检验,实验结果表明,系统能自动检测相似网页,能自动展示内容,省去了很多的管理工作量。

作者:楼俊君单位:上海电力学院