首页 > 文章中心 > 网页实训总结

网页实训总结

网页实训总结

网页实训总结范文第1篇

关键词:网页设计与制作 综合实训 案例教学 任务驱动

中图分类号:G633 文献标识码:A 文章编号:1673-9795(2013)05(b)-0173-02

近年来,随着我国职业教育改革的进一步深化,计算机专业课程改革面临着进一步完善,这就对《网页设计与制作》课程改革提出了更高的要求。《网页设计与制作》课程是中职学校计算机应用技术和计算机网络专业中一门创新性和实践性很强的专业课程,要求学生不但要学好理论知识,还需要掌握实践技能,关键是要具有解决实际问题的能力。但是,这样一门看似简单好学的课程,却经常得不到很好的教学效果。学生在学完课程之后,要么设计结果达不到应有的功能和视觉效果,要么不能独立地进行网站规划和页面设计。因此,笔者在《网页设计与制作》课程的教学实训中,对教学内容、教学方法、教学手段、考核方式等进行了一些尝试,收到了良好的效果。

1 实训阶段

以我校计算机应用专业为例,《网页设计与制作》综合实训课安排时间为60个课时,以集中训练的方式进行。在综合实训之前,学生已经学习理论知识和上机操作,对课程的重点、难点进行了相关的练习。笔者在教学中发现,虽然学生经过指导能够完成课堂上布置的任务,但是只能根据规定的操作步骤进行,学生没有独立设计和制作网页的能力。学生的操作依赖性很强,学习之后很快就遗忘。针对这些问题,笔者制定了切合实际的实训计划,主要目的是培养他们团队中协作能力,独力完成所承担的网站需求分析、网站规划、网页设计、综合测试等工作,从而使学生牢固掌握所学知识,实现以技能培养为核心,培育适合当前职业岗位需求的应用型、技能型人才。本课程综合实训如下所示。

1.1 实训动员

在综合教学实训进行前,要做好学生的学习动员工作。一方面,让学生明确综合实训的主要目的是让学生通过实践,了解和掌握网页设计与制作的基本方法,通过不断上机练习达到解决实际问题的能力。因此,集中两个星期时间使学生综合运用所学习的网页设计与制作的知识及以前所学习图形图像处理等计算机软件应用方面的知识,根据网站制作的流程,完成一个综合的网站,全面巩固学生的知识,培养学生解决实际问题的能力,从而达到学以致用的目的。另一方面,让学生了解实训的目的和意义、学习方法以及考核方式等方面的内容。采用展示实际案例效果、历年网页设计与制作竞赛获奖作品、历届学生的优秀作品等方式来激发学生的学习兴趣,让他们积极主动地参与到实训中来。

1.2 实训过程

在《网页设计与制作》综合实训教程中,老师的角色是参谋,学生的角色是任务的完成者。老师提出项目要求,学生根据具体的任务来完成。我们把一个班的学生分成10个小组,每个小组4~5人,每个小组选择一个主题制作网站,综合运用前面所学的知识和相关的技术共同完成。

1.2.1 基本知识回顾

这部分的要求是温习网页制作课程的重点难点,使学生对Dream weaver各方面的操作知识系统的由“片”的认识转向“面”的认识。

1.2.2 案例作品赏识

在网页设计过程中,经验丰富的设计师需要博采众家之所长,形成自己的风格,而对于初学者来说,模仿是最容易收到效果的方法。大量欣赏优秀的网站作品并不断地分析、比较,会使学生的各种能力逐渐增长和提高。通过展示历年中职学校职业技能竞赛中网页设计与制作项目中的获奖作品、历届学生的优秀作品等手段来提起学生的学习兴趣,吸引学生积极主动地参与实训。

1.2.3 案例模仿操作练习

从历届学生的优秀作品中选择一个典型的案例,让学生作为网页设计与制作知识的回顾。例如,对一个旅游网站进行解析,使学生了解制作网站的基本方法,让学生对旅游网站的粗略和宏观认识得到细化,使学生懂得如何独立面对旅游网站进行需求分析、站点规划和设计。

1.2.4 作品的选择、网站需求分析、站点规划

在综合实训中,首先要求各小组学生选择一个网站主题,主题一般选择如下内容:校园生活、教育、体育、旅游、电子商务等。然后,小组成员开始着手进行网站需求分析,设计整个网站的框架,选定要设计和制作的各部分内容,由组长组织完成一份完整的网站规划书。在此过程中,老师要适当指导,要求学生独立完成,设计出有具有本组特色的网站。最后,由组长给本组成员进行网站设计与制作任务分配,分头搜集素材并进行整理。

1.2.5 网站色彩搭配

网站的色彩就像人的外表一样,如果打扮得美观大方,就会给人一种魅力四射的感受,而不修边幅则让人感到粗糙毛草,所以,网页的色彩搭配将直接影响访问者对网站的印象。网页配色有着很强的艺术性,不同的色彩搭配方案就会让人产生不一样的感受。对于初学者来说,模仿是最容易看到效果的方法。在站点规划完成的基础上,选择网站的主色调和学习色彩搭配。主页的色彩处理得好,可以锦上添花,达到事半功倍的效果。色彩总的应用原则应该是“总体协调,局部对比”,也就是:主页的整体色彩效果应该是和谐的,只有局部的、小范围的地方可以有一些强烈色彩的对比。由于中职生英语、数学等文化基础较差,编程对他们来说难度太大,他们走上工作岗位后一般不会从事程序开发工作,大多数学生毕业后从事的是网站美工等,因此,应该在网页美工等方面加强培养。

网页实训总结范文第2篇

关键词:文本自动分类 分类算法 特征抽取

中图分类号:TP393.0 文献标识码:A 文章编号:1007-9416(2015)12-0000-00

1介绍

面对目前Internet上存在的数以万计的WWW服务器,以及在其中存储着的极其丰富的信息资源,如何解决用户在应用各种搜索引擎查找信息时,搜索引擎返回给用户的网页信息数目过多、范围过广的问题,就是如何让用户一目了然哪些是对自己“有用的”的网页信息,哪些是对自己“无用的”或是用处不大的网页信息,是非常重要的。

文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。网页的自动分类,一方面,可以将网页按类分别建立相应的数据库,对分类数据库进行查询,提高文章的查全率和查准率;另一方面,可以建立自动的分类信息资源,为用户提供分类信息目录。

2文本分类

自动归类的一般做法是,预先确定好文本类别,并且对每个文本类别提供一批预先分好类的文本(称为训练文本集),分类系统先通过训练文本集学习分类知识,在实际分类时,再根据学习到的分类知识为需要分类的文本确定一个或多个文档类别。自动聚类是指文本聚类,即对给定的待分类文本集利用聚类方法(主要有凝聚法和分解法)将其划分为多个类别。自动聚类系统不需要训练文本,划分出的文档类也是不确定的。本文研究的文本自动分类是指在给定类别体系下的文本自动归类。

2.1文本分类的定义

文本分类就是将一个二元组 映射到一个布尔值的任务。其中 是所讨论的文档的集合, 是预先定义的类别的集合。如果将二元组 映射为值 ,则认为文档 属于类别 ,否则认为文档 不属于类别 。

更形式化的说,假设有个未知的目标函数 ,这个函数能够将任意一个文本准确的分类。文本分类就是要找到一个函数 使得它的结果能够尽可能的与 接近。

根据应用的需要,可以给文本分类加以不同的约束。例如可能需要这样一个分类器,对给定的整数 ,每个文档 需要分类到 中的 个不同的类别中。 时,即一个文档只能分给一个类别,这样的分类称为单类别分类,而如果一个文档可以分给 中的任意类别,这样的分类称为多类别分类。单类别分类的一个特例就是二值分类,即对任意一个文档 ,要么属于类别 ,要么不属于类别 (这时属于类别 的补集 )。

2.2自动分类过程

文档的自动分类可以描述为如下过程:抽取文档特征,将文档表示为统一的标准方式;使用分类器判断文档所属类别,分类器是分类系统的核心,可以通过学习不断改进和完善,包括:增加、更新类别和知识(训练分类器)即: 是类别集合; 是所有文档集合; 是训练文档集合; ; 是文档特征向量空间; 是文档; 是映射,将文档转换为特征向量; 是已知的映射,训练集合中的文档已经分好了类。

2.3文档分类模型

文本分类由训练模块和分类模块构成。在训练模块,首先将训练文本集向量化,得到的特征的集合;特征子集抽取算法从特征的全集中抽取一个最优的特征子集;这里的“最优”子集是由评价算法来判定的,它根据分类器对由特征子集所表示的训练文本进行分类,并对分类性能进行性能评价。在分类模块中,遵循先将测试文本用最优特征子集表示,再经分类器分类。文本分类模型如图1所示。

图1 文本分类模型

3文本分类研究

3.1自动分类实现的方法

进行网页文本分类研究的首要任务就是确定实验所需的网站,并将这些网站组成集合。之后将会检测这些网站是否含有信息标签以及其信息标签是否有效。收集所需网站的方法是收集用户日常生活中登录的网址数据,比如可以利用网络记录列表来得到访问网站的名单。这样可以“覆盖”更多的网站;因为网址导航页一般不包括含有骚扰信息的网站,而这些网站又是进行实验所必需的。收集日常实际数据的另一个优势就是可以更好的反映出实际用户的行为,还能够更大程度的接触到一些网址导航页中所不包含的信件网站。本文是在此基础上,通过手工输入简历训练集和被测试集,从而达到模拟真实分类的效果。

3.2应用Bayes算法实现文本分类

简单贝叶斯模型假定特征向量的各分量间相对于决策变量是相对独立的,也就是说各分量独立地作用于决策变量。尽管这一假定一定程度上限制了简单贝叶斯模型的适用范围,然而在实际应用中,不仅以指数级降低了贝叶斯网络构建的复杂性,而且在许多领域,在违背这种假定的条件下,简单贝叶斯也表现出相当的健壮性和高效性,贝叶斯定理告诉我们如何通过给定的训练样本集预测未知样本的类别,它的预测依据是取后验概率最大的类别。

Bayes算法的基本思路是,计算网页属于类别的概率,网页属于类别的几率等于网页中每个词属于类别的几率的综合表达式。具体算法步骤如下:

(1) 对训练网页和测试网页分别进行预处理和分词(采用的全自动词典切词方法),抽取特征项。

(2) 计算特征词属于每个类别的几率向量 ,公式如式(1)所示。

(1)

其中, 为该类的训练网页数, 为词 在 中的词频, 为总词数。

(3)在新网页到达时,根据特征词分词,然后按公式(2)计算该网页 属于类 的几率。

(2)

其中, 是训练网页数/总训练网页数, 为相似含义, 为类的总数, 为 在 中的词频, 为特征总数。

(4)进行网页分类。

在头文件(Bayes.h)中定义了私有数据成员和训练文本集,核心代码如下:

// 训练文本中所有不同单词的集合

set m_Vocabulary;

// 第一个值记录分类名,第二个值记录每个特征值和它出现的次数

map m_KeyGather;

// 记录每个分类的样本值

MapType m_ClassStyle;

// 记录每个类别中各个单词的数量

MapType m_CharNum;

3.3系统应用效果

有两个重要的指标来评价和测试文本自动分类算法,查全率和查准率。查全率的公式如公式(3)所示。

(3)

其中为通过分类算法被正确分类为C类的文本数目, 为未分类文本之前属于C类的文本的数目。

查准率的公式如公式(4)所示。

(4)

表1列出了网页描述信息对分类算法的影响,用体育类样本约300篇对体育类进行训练,网页的标题等信息的识别结果。

表1 体育类识别结果

方法 90.6%

文本词频 92.6%

词频+标题 92.6%

词频+描述 91.8%

词频+关键词 92.2%

词频+超链接 93.9%

词频+所有描述信息 92.5%

由表1中可以看出,通过词频和页面描述信息进行加权调整,在训练和识别时,加大了那些在网页文本部分出现频率高的词以及标题、描述、关键词、超链接中的词的权重,可以提高识别率。

4结语

文档分类系统可对文档集进行有序的组织,即把相似的、相关的文档组织在一起,从而为用户提供更高效的搜索策略与更准确的查询结果。论文结合了已有的文本信息描述和特征提取方法,设计并实现了一种简单实用的基于计算单词适合率的特征提取算法,取得了较好的效果,并且通过实验证明了其可信度;本论文还针对网页自身的特点,讨论了已有的文本信息权重计算方法的不足,提出了改进的意见,重点研究了提取特征值算法和网页文本描述信息的权重计算方法;最后,还要说明的是设置合理的类别体系虽然在一定程度上能够解决文本特征造成的瓶颈问题,但是,由于自然语言的千变万化,类别交叉现象仍然是难以完全避免的,因此,考虑挖掘文本深层次特征的办法,这需要结合语言学的知识进行研究。基于统计的文本分类研究方法在得到成功的同时,似乎也快达到了极限,将语言学知识与基于统计方法相结合应该是一个很有前途的研究方向。

参考文献

[1] Zhao Da-peng, "Research on the Vector Space Model Based Text Automatic Classification System," Int. J. Digit. Content Technol. Appl. South Korea, vol. 7, pp. 381-388, Feb 2013.

网页实训总结范文第3篇

关键词:网页设计;模块化;探索

21世纪是科技的世界,更是互联网的时代,人们的工作、学习已离不开互联网,通过互联网和获取信息、展示部门、企业形象,开展网络营销等活动已成为一种新的流行趋势。无论是企业网络构建管理还是网站的开发运营,都需要靠实用型网络技术人才来实现,社会对合格的网站设计人才需求缺口非常大。高职院校为社会培养了大批网站设计人才,但真正符合社会需求的技术应用性人才仍然短缺。这一现象表明,计算机专业的教学和人才培养模式与社会脱节,高职计算机技术人才培养面临很大的挑战。

一、高职院校《网页设计》传统教学模式存在的问题

(一)《网页设计》课程具有实用性、操作性强的特点

在当前高职计算机传统教学模式中,教师通常根据“理论加实践”的模式来开展教学,即根据教材的章节安排进行理论基础知识讲解并演示操作步骤,学生跟着模仿操作和练习。这种教学方式将课程知识点以多且零散的方式呈现给学生,忽视了知识与具体工作任务的联系,授课完成后学生大多只记得软件的操作和某些工具的使用,对于一个完整的网站项目从设计到制作完成的过程缺乏清晰的认识,造成学生所掌握的知识技能与具体工作任务和就业需要脱轨。

(二)实训环节还是模拟性实验多,内容单一,缺乏真实实践环境,学生未能通过实训有效地梳理所学知识,提高实践操作能力。

(三)一些高职院校学校的现行教材中教学内容比较滞后,脱离实际。实践与能力培养不够突出,专业实习、实训的设备与计算机技术的发展有一定的差距,学生的实验教学往往不能保质保量地进行。学生很难按要求完成教材的学习内容,达到教学大纲所要求的目标,学习的最终效果不能满足社会相关职业岗位的需要。

二、《网页设计》课程模块化教学体系的构建

高职院校的《网页设计》课程是培养学生具有一定的艺术素养,较强的网页鉴赏能力,熟悉网页设计创意的原理和方法,熟悉HTML、CSS、JavaScript和网页制作工具,熟悉网页的制作和流程。能够根据客户需求进行网页设计与制作以及进行网站的维护和管理工作。在教学过程中,将这些知识点合理地贯穿在课程的授课中,将课程内容分段模块化,以应用和职业能力为导向,打破以知识为中心的传统学科章节体系,将工作岗位所需知识、技能和素质分解为多个相对独立的教学模块,以模块为单元开发教学资料并组织教学,将相关理论融于技能训练中。

在授课内容上打破以往教材只讲授Dreamweaver软件制作网页,或者以Dreamweaver软件为主,Flash、Firworks、Phtoshop几个软件都涉及,但是这几个软却是孤立讲授,学生在学习的过程中学到的知识是零散的,思想是模糊,在制作网页时很难从全局的角度出发,规划设计制作出合格的网页。为此,笔者打破原有课程体系的束缚,调整原有章、节的顺序,增加以往教材中缺少的网站设计的重要知识—版面设计部分,将课程内容结构以应用为导向“模块化”,共分为四个主要模块,每个模块下又分为不同的子模块,根据模块的特点采取与之相对应的教学方法和手段,培养学生的专业素质和能力。

课程的设置模块如下表(课程模块设置表)。

课程模块设置表

课程知识模块子模块学习任务能力目标

模块一 基础模块(一)子模块一 网页设计基础了解网页设计基本概念,包括Internet、WWW、HTTP、HTML等;了解网页设计基本流程;了解网页制作相关工具掌握网络、网页、网站等基本概念,掌握网站设计基本流程

子模块二 网页制作技术掌握站点的管理;文本的处理;表格布局网页;超级链接的创建;css样式表的使用;模板和框架网页;多媒体的应用;层与时间轴;行为的使用等熟练掌握网页制作相关的技术;掌握常用HTML标签的功能和使用

模块二 设计模块子模块一 网页版式设计掌握网页的布局理念;色彩搭配;phtoshop和Fireworks设计网页页面能利用phtoshop或Fireworks图像处理软件设计网页页面,并能将页面设计图形成网页

子模块二 动画设计网页页面中动画的位置、设计能利用Flash动画制作软件设计制作引导动画、Banner、导航菜单等动画

模块三 基础模块(二)动态设计了解数据库的链接;IIS的设置;动态页面创建的方法会用ACCESS或SQL创建数据库,链接数据库;会创建简单动态网页;会测试动态网页;能将给定的动态网页(如论坛、留言板)链接到静态网站中

模块四 应用模块模块一 综合设计用户调查分析;材料的收集分类;网站的整体规划;综合运用所学知识建立一个网站熟悉网站的整体规划和设计流程,能独立规划、设计制作一个完整的网站(以集中实训的方式进行)

模块二 网站建设后期管理了解网站、网站测试、网站维护。会申请空间;能利用上传工具将网站上传到Internet上

三、《网页设计》课程模块化教学体系的实施

(一)合理安排各教学模块的课时,突出职业应用能力模块的教学

在课时的安排上改变以往花费大量时间讲授使用Dreamweaver软件制作网页的技术知识,忽略网站设计知识,使得学生学完课程后缺乏设计能力。根据网络专业学生在先行课中学习过计算机基础、图像处理、动画制作等先行课,对于网页设计和制作基础等知识的理解接受能力较强的特点,在课时的安排上,基础模块部分只分配总课时的三分之一,设计模块约占总课时的四分之一,将剩余的将近总课时一半的时间分配在应用模块上,并以实训的方式,采用“真题真做”等形式进行教学,对学生着重进行实践和应用能力的培养,使学生在授课完成后对于网站的整个设计过程有一个比较清晰的认识,提高岗位技能。

(二)改革课程教学模式,提高学生学习效率

将整个教学过程分为两大任务—模仿型任务和实践型任务。模仿型任务主要是根据教师操作进行模仿训练,基础模块以模仿任务为主,目的是通过模仿训练熟悉基础网页制作的技术,为后面的学习奠定扎实的基础。 从设计模块部分开始,实践型任务就成为学生必须完成的一项重要任务,在这一时期的教学中,模仿型任务是模仿教师制作一个基本能够串连起教材知识点的网站。教师在上课时,首先向学生展示一个完整的网站项目,包括静、动态页面,让学生浏览网站的同时,分析网站的结构、页面布局、色彩的搭配、导航的设计、页面主要动画的设计等,使学生对具体的学习内容有了一个感性的认识,提高学习的兴趣。授课时将每个模块分成若干个子任务,让学生通过模仿子任务的操作熟悉相关知识点。实践型任务是一个由学生独立完成的网站,并将此任务作为学生的期考任务,由学生自定题材或根据教师指定的题材,在完成每堂课的模仿型子任务之后,自行搜索素材,根据所学到的新知识对实践型任务进行一定的设计与制作,为学生较好完成课程考核任务做好了铺垫。在教学任务完成后,学生对该门课程的知识即可形成一个完整的知识结构体系,学生基本能设计制作一个网站。在授课过程中,经常检查学生掌握知识的情况,给学生查漏补缺,弥补平时所学的不足。还可在学生完成的一些子任务中选出部分进行课堂演示和讨论,活跃课堂气氛,有利于学生记牢知识点。

(三)在课程实训环节“真题真做”,提高学生工作技能

实训环节是课程的一个重要部分,通过一段时间的实训,使学生梳理学过的知识,提高实践操作能力。我们在进行综合设计模块的教学时,即以集中实训的方式,采取“真题真做”的方式进行,让学生在真实工作情景中锻炼技能。一种方式是让学生参与计算机协会、团委等学生社团、甚至是学院系部、网站管理建设。如系部学生社团和系部各个部门在校园网上需充实、更新的网页、信息资源,系部制作的网络课程、精品课程网站等,都可让学生参与设计制作,学生在教师的指导下,或由高年级学生帮带,完成与“用户”的沟通,根据“用户”要求,搜集素材,参与项目的策划和实施。另一种方式是将学生带到与学院校企合作的实训基地,在企业中体验网站维护和建设的真实工作情景。这种真题真做的方式不但能让学生充分体验一个真实项目从开始到完成的全过程,检验自己的学习成果和实践能力,还可以考察学生组织协调、与人沟通、策划执行的能力,让学生得到一个综合性的锻炼。通过优秀网页作品的演示、分析,以及学生独立作品设计指导等措施注重提升学生艺术设计水平。

(四)以岗位和职业技能为标准进行课程考核

为增强学生综合应用能力,提高实践技能,期终考核采取两种考核方式,即“课程内容考核+实训考核”考察学生知识技能的掌握状况。要求学生两项成绩都合格,整个课程的成绩才算合格。

1、课程内容考核

《网页设计》课程的最终目的是要求学生应用所学知识,设计出个性化的特色网站。因此课程的考核采取项目开发与项目展示相结合的方式,即让学生在一段比较长的时间内完成一个完整的网站,再组织学生进行项目展示。在教学中后期阶段,也就是在进行设计模块的教学时,就要求学生开始着手收集资料,按照教师给定的主题设计一个具有自己特色的网站。教师设定网站设计要求:作品是原创,主题突出,内容健康,布局合理,色彩搭配合理,至少还有8个页面,深度至少包括二级页面;显示分辨率以1024*768为准,必须上交网站设计过程中所有的源文件包括png、psd和fla文件等;还要求学生上交作品说明(包含设计思路,进度计划等)这样可以考查学生作品完成的态度和原创性,同时也可培养学生实践操作和应用开发能力,发挥学生的学习积极性和主动性。作品完成后,再组织学生进行项目展示,让每名学生都对自己所完成的网站进行一个介绍。然后由老师、同学进行提问,演示学生现场答辩。最后综合学生的作品和提问的表现给出一定的分数。这样既考察了学生的动手能力,也让学生的口头表达能力、临场反应能力得到了提高。

2、实训考核

计算机网络专业的毕业生将来很有可能从事网站开发和网页设计工作,在如今的人才市场招聘中,经常会看到招聘的网页设计人员,必须通过相关认证考试,由此可见,认证的重要性。因此,将网页设计课程教学和网页设计师职业资格认证有机结合势在必行。在课程实训结束,要求学生进行职业证书的考核,考核成绩作为实训成绩。学生选考的职业资格证可以是国家劳动部的ATA网页设计师、目前社会认可度比较高的Macromedia认证网页设计师证书、Adobe认证网页设计师证书(ACCD)等。使高职生生能结合所学课程和专业,进行职业资格能力方面的学习,提前了解职业技能要求,提高职业素质、实践能力和就业竞争能力,缩短就业上岗后的适应期。这无论从学生角度。还是从企业角度看,都是一件“双赢”的事。

经过近两年的探索和实践,教学成效还是比较显著的,相对于以前学完后对网站设计制作无从下手的现象已经很少了,大多数学生能利用所学的知识独立完成一个完整网站的设计制作,页面效果符合规范;ATA考证合格率95%以上,相当一部分学生毕业后能立即上岗,用人单位评价良好。但教学改革是一个动态的过程,要根据实施过程中的具体情况灵活运用,并不断加以充实完善,以期取得更好的教学效果,

参考文献

[1]安颖莲.网页设计与制作课程教学设计与实践[J].中国教育信息化,2007,(9).

[2]沈志刚、于晓霞.“模块项目化”教学法在网页设计与制作课程中的应用[J].福建电脑,2009,(5).

网页实训总结范文第4篇

笔者以实现深网信息自动化获取为研究目标,从面向深网资源的搜索提取方法、面向实体层Web的信息索引和分类技术、面向用户的信息检索平台建设3个技术层面展开研究,有计划地将大量无序的特色网络资源实现自有化并得以快捷利用。

1基于半监督顺序回归模型的爬虫算法

在资源搜索方面,将搜索目标设定为通常无法订购但军事特种医院特点鲜明的特色资源。通常,这些网络资源都是以深网的方式存储,并且无法直接获取。为此,笔者研究了面向深网的信息提取技术,研究并实现了一种面向军事特种医院资源的基于半监督顺序回归模型的快速爬虫算法。此算法主要包括以下3个步骤:首先,根据军事特种医院网站资源的特点,利用半监督顺序回归的方法构造深网页面分类器,定义所需的主题相关的网页分为N个不同的层次。此时层次的数量级根据所给定网站资源特点设定。一般情况下,N≤4。其次,构造深网链接信息抽取器,抽取对应N层次的有效链接。在提取这些链接信息时,采用多线程的方法完成。最后,把深网页面分类器的分类作为指导,形成特征库,利用让爬虫自动提取满足要求的链接特征,快速实时地找到各层有效链接。对于爬行过程而言,笔者具体采用如下方法:在开始爬行前,把预先定义的符合特种医院资源信息的种子放入最低层的链接队列中,链接信息提取器从深网页面中抽取满足特点规则的链接信息,包括链接的网址、页面标题,链接的锚属性等信息,并同时交付链接特征学习器。在链接特征学习器中,笔者将采用深度机器学习方法,将这些特征进行归类、分析。然后,按照上述方法,将所有N层队列中的链接进行爬行。对于同一层次的链接,根据预先定义的规则让距离网站主页近的链接先爬行。这样,既可以爬行到最佳的链接,又保证让所有的链接都被爬行到。系统运行结果表明笔者提出的爬行策略能够提取深网中有效链接的基本特征,并过滤掉无关链接,提高了爬虫的速度和准确度。

2面向实体层Web的信息索引技术

采用高效的爬虫技术从DeepWeb上抽取出的军事特种医院特点鲜明的特色资源之后,将其存储在本地数据库中。对于索引而言,由于军事特种医院信息的特色,其索引对象可表示为Web实体(WebEntity)。Web实体通常具有各种属性,并由属性进行描述。如海军信息、潜水艇实体,具有长、宽、重量、下水深度等属性,可以将军事特种医院信息划归为多种不同实体。显然,进行实体搜索,索引的对象为实体而非页面,其索引域为实体的各个属性。用户进行检索时,搜索器根据搜索关键字来查询实体索引域,然后进行综合排序。基于此,笔者提出了一种基于迭代和组合的信息抽取方法,实现Web实体的信息抽取及其索引建立。整个基于迭代和组合的信息抽取和索引方法实现框架图。为实现此信息抽取方法,首先生成简单的页面索引。页面层的索引技术,主要采用基于关键字的倒排排序方法,然后再对其按实体关键属性进行分类。其次,采用学习和深度搜索的方法抽取基本实体属性信息。在该过程,首先利用基于反馈的条件随机域模型来抽取实体的属性信息,之后通过快速排序及其深度搜索方法穷尽搜索包含某些特定实例的所有页面集。采用基于反馈的条件随机域模型的基本思想是先从已有的实体集中构造训练数据集,采用预先定义的规则对训练数据集中的页面进行有条件的标注,然后进行模型训练。在训练中,笔者采用基于反馈的方式进行,即通过已有的训练结果对训练模型进行反馈,提高训练的速度和效率,最终使得抽取精度较高。最后,在迭代抽取和组合集成过程中,采用方法的基本原理是:对所有的待抽取页面集,进行用户交互定义的页面快速分割,将页面分割成多个不同的部分。然后,根据实体模型,对于还未抽取的相关实体属性,采用上述的抽取方法进行迭代抽取,并将抽取的数据结果集成在一起,最后构成一个完整可信的信息实体。

3面向用户的分布式信息检索平台建设

在此分布式信息检索平台建设中,根据用户的需求,采用上述相关关键技术,设计了一个面向用户的分布式信息检索平台。本平台的后端服务器采用主从分布式架构。本检索平台由3个主要部分构成,分别为:总体控制服务器、半监督顺序回归爬虫服务器和迭代与组合实体索引检索服务器。其中,总体控制服务器主要负责整个爬虫系统的整体控制管理、各个服务器之间消息的发送、传递以及任务的分配等等;半监督顺序回归爬虫服务器主要负责爬行深网,下载军事特种医院信息网页,并抽取网页中包含的各种实体信息;索引检索服务器主要负责接收采集到的特种医院军事等实体信息,并以建立索引,为用户提信息搜索等服务。此外,为了保证系统运行的可靠性,总体控制服务器和迭代与组合实体索引检索服务器均采用了双机热备份的方式,以维护服务器和对应的备用服务器之间数据的同步。本系统中的控制服务器是采用按用户指定的静态任务分配模式来进行网页采集,所以控制服务器和它的备用服务器之间的通信量不会太大,之间的数据同步压力并不大,从而可以解决主从式分布爬虫系统中控制服务器的效率瓶颈问题。

二总结

网页实训总结范文第5篇

第一部分:封面(格式见附件1)

页面第三行起:顶岗实训总结报告,一号字黑体居中;页面第十六行起:黑龙江林业职业技术学院经济管理系,小二号字宋体居中;页面第十七行起:专业、班级、姓名 小二号字宋体居中;页面第十八行起:年月日,小二号字宋体居中。

第二部分:标题:××专业××级顶岗实训总结报告

要求:××专业××级为宋体三号字居中;顶岗实训总结报告为黑体二号字加粗居中。

第三部分:正文:宋体四号字

一、实训单位基本情况(200字以内)

二、实训过程总结(800至1000字)

三、主要收获(500字以内)实习报告网

四、实训过程中存在的主要问题和建议(300字以内)

五、专业、班级

六、本人签名

七、年月日

第四部分:实训单位评价(单置一页,格式见附件2):由实训单位人力资源管理部门或服务部门主管做出实训鉴定并盖章。

第五部分:经济管理系评价(单置一页空白,格式见附件3)

全文采用A4纸正版打印。