首页 > 文章中心 > 数学建模经典算法

数学建模经典算法

数学建模经典算法

数学建模经典算法范文第1篇

1文本情感特征

本文基于SVM的文本情感极性分类任务分为3个步骤:1)情感词典构建:构建一个较完备的能识别情感特征词的情感词典;2)情感特征选择及特征向量加权:从文本中提取情感特征组成特征向量,计算特征向量中情感特征的文本情感权重;3)情感分类:针对步骤2的加权后的情感特征向量,用SVM的机器学习方法把文本分成正向情感极性和负向情感极性两类.

1.1情感词典的构建情感分析需要识别情感词特征,但由于目前中文情感分析领域的研究并没有一个完备的的情感词典库.因此,本文通过以下几个方面完成情感词典的构建:1)利用《汉语褒贬义词语用法词典》,该词典共收词条1015个,对其词语进行情感极性分类扩展情感词典.2)利用知网的极性情感词词典,台湾大学整理并的中文通用情感词典(NTUSD)以及大连理工大学信息检索研究室的情感词汇本体词典,对其中的词语通过人工选择进行极性分类和整理,并利用《同义词词林》对情感词进行扩展.3)利用基准情感词,通过大量的语料集对未知情感词采用PMI算法进行情感极性分类扩展情感词典,实验采用人工选取的方式选择情感语义非常明显的基准情感词,并利用式(1)设定阀值进行计算归类.4)在情感词汇本体词典极值标注的基础上,人工标记未赋予极值的情感词语,这种做法带来了一定的误差.

1.2情感特征选择情感分析特征选取,本文结合构建的情感词典利用卡方统计量选择与情感特征相关的词语,剔除与情感特征无关的词语.

1.2.1卡方统计量技术本文选择卡方统计量(chisquarestatistic,CHI)技术来建立分类模型的情感特征词向量,计算公式如式(2)和式(3)所示.利用式(2)和式(3),本文模型可以统计出某一情感类别每个词的卡方统计量,对每个类别设定一个情感特征量阈值,使特征向量更具区分度,并合并情感类别中的情感特征词组合作为本文选择的情感特征向量.

1.2.2情感特征选择情感特征的选择除了词本身的词特征之外,还需包括情感词的情感特征,单句的情感特征以及句间情感特征.本文模型选取的情感特征如表1所示。

2文本情感极性分类

2.1情感特征加权

2.1.1单句的情感极值处理本文以逗号为分隔对单句进行情感分析以及情感极值加权,分为以下几种情形:1)若出现情感词,比如“开心”,“失望”,“搞笑”等,本文从情感极值表中找出相应的极值,对于正向情感词取正极值,负向情感词取负极值,而对于情感极性不明确的,则取其所有情感极值的期望值.2)若出现否定词,比如“不”,“未”等,模型视它的出现是对后续情感极性的一种否定,对于否定词之后紧跟着情感词的情况,对情感极值取反并减少情感词对应的情感数目增量,增加反向的情感数目增量.3)若出现反问副词,比如“凭什么”,“就算”,“怎么能”等,模型视它的出现是为了加强负向的情感极值,对于这样的情况,提高负向情感极值.4)若出现一个感叹号或多个感叹号,模型视它的出现是为了加强相应的情感极值,因此分析这样的句子,提高句子中的相应的情感极值,提高幅度视感叹号出现的连续程度而定.5)若出现程度级别词,比如“极其”,“略为”“有些”等,模型视它的出现是为了增强或减弱情感极值,对于程度词修饰情感词的情况,视程度词级别增强或减弱情感极值.6)若句子是首句或尾句,且出现人称代词或主张词语,比如“认为”“发现”等,模型视其是影响整体情感极值的重要因子,对于这种句子,加大其相应的情感极值.

2.1.2整句的情感极值处理本文以句号或感叹号为分割点对整句进行情感分析以及情感极值加权,分为以下几种情形:1)若出现递进关系连词,比如“不但,而且”等,模型视第二复句比第一复句所表达的情感要更为强烈,因此在分析这种句式的复句时,提高第二复句中情感词的情感极值并在原来的基础上增加一个对应的情感数目增量.2)若出现转折关系连词,比如“然而”,“但是”等,模型视转折连词前后所要表达的情感极性是相反的,连词之后的语句所表达的情感才是真正想要表达的情感.因此在分析这种句式的复句时,提高连词之后的复句的情感极值并增加两个对应的情感数目增量,降低连词之前复句的情感极值并减少两个对应的情感数目增量.3)若出现因果关系连词,比如“由于”,“于是”,“以致”“因此”等,模型视连词出现的复句才是重点要表达的情感极性,连词之前出现的情感只是铺垫,因此在处理这类句式时,提高连词复句的情感极值并增加一个对应的情感数目增量.4)若出现让步连词,比如“即使”,“尽管”,“就算”等,模型视让步连词出现的复句所表达的情感极性应该是为了增强后一个复句的情感极性,因此对于整体的情感极性来说,在分析这种句式的复句时,降低让步连词复句的情感极性并减少一个对应的情感数目增量.2.1.3改进的情感TFIDF函数TFIDF函数常用于特征加权,它表征一个特征的重要程度.但是对于情感分类而言,情感词在某个类别中在多个文本中多次出现,本文视该情感词对于表征该类别越“重要”,而不是TFIDF函数所表征的越“不重要”,因此改进公式如式(7)所示.

2.2情感极性分类支持向量机(SupportVectorMachine,SVM)是一种常用的用于二分类的监督式学习的方法.在自然语言处理领域中,SVM广泛应用于词义消歧、文本自动分类、信息过滤等方面.文献的实验结果均表明,采用SVM的方法能够取得更好的分类效果.文献[7]进行对比实验表明支持向量机SVM的分类方法效果最佳,分类精确度最高达到83%;文献[8]表明在训练集规模较大的情况下,使用支持向量机分类方法明显优于其他分类方法.因此论文采用支持向量机SVM融合情感特征向量对文本进行情感极性判别.

2.3Spark分布式计算平台Spark是UCBerkeleyAMPlab所开源的集群计算平台,与Hadoop有相似之处,但它是立足于内存计算的一个新的集群计算框架,具体见图1.Hadoop的数据共享相比Spark慢,因为前者需要额外的复制,序列化和磁盘IO带来的开销,而后者是基于内存计算且作业是基于构建的Stage有向无环图(DAG)执行的.Spark由于它的集群架构设计和内核处理模式使得其更适合进行大数据挖掘或者机器学习处理等需多次迭代的领域,原因在于在Spark设计中融入了RDD这样的抽象概念。RDD(ResilientDistributedDataset)是Spark的核心概念,指一个只读的、可分区的弹性分布式数据集.Spark默认的缓存策略是将RDD以反序列化的方式缓存于内存中,RDD的Lineage会记录每一个RDD的父依赖,也就是Transformation操作行为.当这个RDD的部分分区数据丢失时,由于Spark的幂等特性以及函数式语义的设计,它可以通过Lineage获取依赖信息去重新运算并恢复丢失的数据分区.Spark的这种粗粒度数据并行的计算范式,带来了性能的提升并保证了数据的鲁棒性.本文中的实验采用Spark分布式计算平台执行情感分类模型并与单机平台进行对比实验.

3实验结果与分析

3.1情感训练语料准备本文使用已经标注好的情感语料数据集,数据集为ChnSentiCorp_Htl_del_4000(酒店领域),ChnSentiCorpBookdel4000(书籍领域)和ChnSentiCorpNBdel4000(笔记本领域).实验采用ICTCLAS对文本内容进行分词并保留词性和位置.一般的文本数据预处理工作会过滤无意义的停用词,例如标点符号、代词、语气词、程度副词、连词等,但对于文本情感分析,这些词语恰恰是本文模型所需要的,所以模型会保留这些词语并自定义过滤器.

3.2文本情感语料处理在Spark分布式计算平台上进行语料预处理和生成特征向量文件的步骤大致如下:从HDFS中读入原始文件,经过一系列Transformtion操作,最后利用Action操作生成特征向量文件送入到MLlib库执行分类算法.1)从HDFS中读入情感词典,经过map(f:T=>U)算子经过reduceByKey(f:(V,V)=>V)生成情感词典极值元组,构建SentimentDictRDD(RDD[(K,V)]).2)从HDFS中读入待分类的原始训练文件,经过map(f:T=>U)算子利用分词器对文件进行分词以及标记类别和文本ID并利用flatMap(f:T=Seq(U))算子和map(f:T=>U)算子生成文本分词元组并记录分词信息构建WordRDD(RDD[(K,V)]),再经过filter()算子利用自定义过滤器链过滤分词,通过cache()算子缓存该RDD.3)在缓存RDD的基础上,一方面经过reduceByKey()算子构建文本词表WordsTermRDD(RDD[(K,Seq(V))]),另一方面经过map(f:T=>U)算子和groupByKey()算子构建倒排表InvertedTableRDD(RDD[K,Seq(V)]).4)在倒排表RDD的基础上,经过map(f:T=>U)算子计算卡方统计量以及sortByKey(c:Comprator[K])算子并保留文本中所有的情感特征词,通过union()算子合并所有的情感特征构建情感特征向量SentimentFeatureRDD(RDD[T]).5)利用词表WordRDD结合情感特征向量SentimentFeatureRDD,根据单句情感极值和整句情感极值公式和SentimentDictRDD(RDD[(K,V)])中的情感极值对特征向量进行加权或者通过改进的TFIDF对向量进行加权.6)在上面的基础上,生成符合SparkMachineLearningLibrary线性支持向量机SVMWithSGD的训练特征向量格式的OutputSVMVectorRDD,并存于HDFS中.

3.3预测与评估实验环境具有3个节点,1个master和2个slave(worker).集群中的单点配置如下:2核Intel(R)core{TM}i3-2350Mcpu@2.30GHzCPU处理器,4G内存,操作系统为Ubuntu14.04,Hadoop版本为1.1.2,Spark版本为0.9.0,采用Standalone的集群架构模式.单机上的SVM分类器,本文采用开源的工具LibSVM,Spark分布式计算平台上的SVM分类器,本文采用SparkMachineLearningLibrary的SVMWithSGD分类器.对于已标注好的情感语料数据集,对于每一个情感类别,拆分数据为训练数据和测试数据,拆分比例为9:1,采用10折交叉验证进行实验,取SVM分类器最后的分类精度平均值作为评价标准,并采用不同的算法进行对比实验.分类精度计算公式如式(8)所示.实验结果如表2所示,表2的语料1、2、3分别表示酒店领域语料集、书籍领域语料集以及笔记本领域语料集,算法A未采用情感特征的卡方统计量和改进的TFIDF,算法B采用了情感特征的卡方统计量的CHI值组合情感极值,算法C采用改进的TFIDF组合情感特征的情感极值,算法D组合了算法B和C进行实验.从实验结果可以看出,算法D的分类精度较其他算法有了明显的提升,说明本实验通过改进的TFIDF和卡方统计量组合情感极值的算法能有效地提高分类精度,验证了本文情感分类算法的有效性.表3是在单机上和Spark平台上进行情感分类实验,采用分类精度最佳的算法D,对比不同平台上的分类精度和训练以及测试阶段的时间代价(ms).从表3可以看出,采用Spark分布式计算平台进行分类预测的分类精度较单机上的分类预测精度有所下降,但时间消耗上,在单机平台执行所消耗的时间比Spark分布式计算平台多,但由于目前使用的语料集规模太小,该特征并不明显.对比文献[16]的实验结果,模型的分类精度略低于文献的分类精度,但模型的时间代价上却更少,由此说明本文的情感分类实验是有效的,而且本文建立的情感分类模型是适合在分布式云平台上运行并实现情感分类预测的。

4结论

数学建模经典算法范文第2篇

关键词:建模竞赛;连续型题目;数学应用;计算机技术

中图分类号:G642 文献标识码:A 文章编号:1674-9324(2012)07-0047-02

全国大学生数学建模竞赛是教育部高等教育司与中国工业与应用数学学会共同举办、面向全国高等院校学生的一项竞赛活动。有关调查表明,认为此项活动对大学生解决实际问题的能力、创新精神、团队精神的培养非常有益的分别占97.1%、98.6%和95%[1]。可见,数学建模竞赛活动的意义已经被人们所认识。具体竞赛中,各种竞赛题涉及医学、生态、化学、经济管理、交通等相关内容。按照赛题描述和解题特点可以将这些赛题细分为四类:连续型赛题;离散型赛题;大数据量处理型赛题;其它无规律型[2]。其中,连续型赛题占了一定的比例,本文将针对连续型题目在竞赛中的价值进行较为深入的研究。

一、连续型数学建模竞赛题的特点

大数据量赛题的特点就是实验性质和报告类的描述多,数据量很大,通常为表和数据的形式,这类题目主要考察参赛者用计算机处理大量数据的能力;离散型赛题的特点就是数据量不大,问题明确,附加限制条件特别多,考虑起来比较复杂,要求比较高的计算机算法功底;其它无规律型赛题较少,其问题描述比较简单,背景介绍及数据少,只提出要解决什么问题,希望给出一个合理的解决方案。此类题目,参赛者自由发挥的空间很大,可谓百花齐放,要求参赛者有创新能力,又能合理解释。而连续型赛题更象解一道数学题,只不过它的背景资料比一般的数学题复杂得多,需要参赛者善于从复杂的背景中将实际问题抽象成数学问题,建立相应的数学模型。有的赛题还明确需要计算某些量,这些量都是连续变化的量,其答案并不具有开放性和多样性,而是具有传统的数学的唯一性、精确性。所涉及的数学知识与数学专业的基础课程密切相关,如2006年的“易拉罐形状和尺寸的最优设计”这道题,需要学生掌握《数学分析》中极值的讨论和计算;2004年的“饮酒驾车”这道题,需要学生掌握常微分方程的意义及计算;2002年“车灯线光源的计算”这道题,需要学生掌握《解析几何》中常见曲面的方程及性质。这类赛题,所涉及课程包括了《数学分析》、《解析几何》、《高等代数》、《常微分方程》等专业基础课,它们突出了数学专业基础课在现实生活中的应用,要求参赛者逻辑思维严密,有扎实的数学专业基础。

二、连续型赛题在数学建模竞赛中的价值体现

1.连续型赛题较其它赛题让参赛学生能更真切感受到数学的应用。传统的数学教学,越来越显形式、抽象,只见定义、定理、推导,授课时满足于逻辑严密的推导、证明,强调数学是“思维的体操”,而越来越少讲与我们日常生活中密切联系的东西。这使得我们的学生,纵有良好的数学基础,但面对实际问题,却不知从何入手。并不是他们的数学知识不足,而是他们运用数学知识处理实际问题的能力较差。这让我们的学生费了很多精力学习的数学知识,感觉没有什么用,久而久之,就会失去兴趣。数学建模竞赛中的离散型及其它赛题,就问题的解决方法而言,分别涉及到统计分析、层次分析、机理分析、插值与拟合等诸多方法。由于学生知识面比较窄,特别是对于低年级的学生来说,没有开设这些课程,只在短时间内参加培训学习,当在竞赛中碰上此类问题时,很难与之联系,建立适合的模型,往往采用“拼凑法”、“尝试法”等做法,多根据生活经验去解决。如2008年针对5.12汶川大地震的“地面搜索测量”赛题,较好的模型是转换为矩形网格上的遍历问题,而学生却是多用尝试、拼凑的方法,虽然较好地解决了问题,但由于没有建立起好的数学模型,所以没有推广的价值[3]。这一类赛题,让大部分参赛学生觉得用不上数学,或不知如何去用数学,因而不能真正体会数学在现实生活中的应用。而连续型赛题,要解决好必须得用数学专业基础课程的知识,它能让学生直接感受到课堂上所学的知识在生活中的应用价值。如2006年的“易拉罐形状和尺寸的最优设计”赛题,本题是《数学分析》中求最值问题在生活中的一个典型应用。这样的应用,只要具有一定的数学专业基础的学生都会,这就让大部分参赛学生能直接地感受到数学在日常生活中的应用。

2.连续型竞赛题较其它赛题更容易建立模型,体会建模的成就感。在数学建模竞赛评优的标准之一就是论文里必须有模型,数学模型可以是一个(组)公式、算法、图表等形式的数学结构。一般而言,离散型及其它型题目容易理解,却不容易建立模型。而连续型竞赛题,题目不易审清,而一旦弄清题意,模型却比较容易建立。在选题时,学生通常喜欢选择连续型赛题。连续型竞赛题难点往往不在于建模,而在于能否审清题目条件及相关的概念。在此基础上,就会发现这些题目计算的多是一些连续量,或是求这些连续量的最值。这在传统的教材中,已有一套完善的解决方案,有现成的公式可用,这就让参赛者能较容易地利用现成公式建立起模型。如2002年的“车灯线光源的计算”问题,只要参赛者通过查阅资料,审清题目,就会发现这实际上是解析几何上的计算问题,有现成的公式方法建模。

3.展现古典数学与现代计算机技术的完美结合。在计算机日益发展的今天,如果数学不能与之很好地结合起来,将会大大降低数学的应用与地位。传统的数学教学,重理论而轻实践,以知识传授为目的,学生动手机会很少,纵使是动手也是做一些机械的计算证明,学生不了解知识发生过程,不利于培养动手能力和创新能力。通过做数学实验,一些概念变得形象直观,一些复杂的运算,用计算机迎刃而解。而数学建模竞赛中的连续型题目,借助matlab或mathematica等数学软件的强大功能,提供了一个数学实验的平台。在连续型赛题中,古典数学提供了思想和方法,建立数学模型,奠定基础,而计算机则解决了计算问题,展现了古典数学与现代计算机技术的完美结合。

例如2000年“飞越北极”这道题,要利用球面的参数方程和空间平面的四阶行列式方程建立基本模型,从而得到空间曲线的参数方程及其曲线积分式近似解,这些都是古典数学成熟思想的应用[4]。但要完满解决问题,得出最终结论,在三天时间内,用手工计算是不可能的,此时得依靠Mathematica数学软件进行公式推导、求解,方能得到最终的结论。通过做这些赛题,让参赛学生充分体会了古典数学与计算机的完美结合,二者互为补充,缺一不可。

参考文献:

[1]晋贵堂.数学建模竞赛与学生综合素质的培养[J].沈阳师范大学大学学报,2008,(4):248-249.

[2]左黎明,盛梅波.大学生数学模型竞赛培训方法与指导策略研究[J].华东交通大学学报,2007,(12):80-81.

[3]姜启源.数学模型[M].北京:高等教育出版社,2003.

[4]王建生.“飞越北极”最佳航线之探讨[J].甘肃科学学报,2002,(3):101-103.

数学建模经典算法范文第3篇

 

0 引 言

 

本体构建是本体应用的基础,随着本体的理论研究逐步深入和在工程实践中的广泛应用,形成了许多的构建方法和构建工具。但本体的构建过程仍需要通过人工的参与,人们凭借一定专业领域知识,依据自己的知识和理解主观地判断概念之间的关系。这种依靠人的经验和知识积累的本体构建方式非常费时费力,成为领域本体发展的一个瓶颈。因此,为了减轻人工工作量,缩短本体构建的周期,人们期望可以自动半自动地构建本体,提高本体构建的效率和自动化程度,于是本体学习的概念就被提了出来。

 

本文对领域概念的抽取和领域概念间关系的抽取等关键技术进行了深入研究;采用了基于word2vec的领域本体概念自动抽取算法,并采用迭代算法,扩充领域概念的候选词集;同时,对领域概念间关系自动抽取的方法也进行了一定研究;最后,将基于Web的领域本体半自动构建方法应用于气候变化领域构建气候变化领域本体。

 

1 基于Web的领域本体半自动构建方法

 

本文基于本体学习技术,设计了一种基于Web的领域本体半自动构建方法,该方法包括领域信息采集、领域词典构建、本体学习、本体编辑和本体评价五大模块。其中,本体学习模块是构建领域本体的重点和难点,该模块主要采用机器学习技术、自然语言处理技术,结合语言学、统计学等知识,从大量领域数据中自动地抽取领域概念和概念间的关系。基于Web的领域本体半自动构建方法框图,如图1所示。

 

2 基于word2vec的领域本体概念抽取

 

领域概念获取是构建领域本体的基础工作,领域概念自动抽取是指从一定规模的自由文本中抽取出能够反映某一特定领域特征或共性的词汇。本文在研究相关算法的基础上,采用了一种基于word2vec的领域本体概念抽取算法。该算法如图2所示,共包含三部分:中文分词、领域概念候选词抽取、领域概念候选词评价。

 

领域词典的构建是概念抽取的基础,在中文分词环节,领域词典为其提供领域词汇,将领域词典添加到原有的分词词典中,使更多的领域词汇可以被识别出来。在领域概念候选词抽取和评价环节,领域词典为其提供领域的种子概念,用于对候选词进行抽取和评价。

 

在中文分词环节,增加了新词发现模块。本文采用的是中科院计算所的ICTCLAS分词工具对中文原始语料进行分词,本文在中文分词环节增加了新词发现模块,将发现的新词词典和构建的领域词典都添加到了原有的分词词典中,从而组成了新的分词词典。

 

在领域概念候选词抽取环节,本文引入了深度学习的思想,它通过构建具有多隐层的机器学习模型从海量训练数据中学习更有用的特征,本文利用word2vec工具学习Web领域语料,训练词向量模型,通过计算向量间的相似度,得到两个词之间的相似度,由此将领域种子概念的相关词汇作为领域概念候选词。

 

领域概念候选词评价环节是指从领域概念候选词中筛选词汇作为领域概念,本文采用基于双序列比对的中文术语语义相似度计算方法计算这些候选词与种子概念的相似度,将与种子概念语义相似度高的候选词作为领域概念。

 

2.1 中文分词

 

中文分词与词之间有明显分隔,因此分词是对中文进行自然语言处理的首要步骤,分词的好坏直接影响概念抽取的效果。分词结果的好坏取决于所采用的分词工具和分词方法。目前,分词词典中的大多数词条是通用领域的,对领域专业词汇的识别率较低,因此构建领域词典,并将领域词典添加到分词词典中是很有必要的。由此,本文在中文分词中加入新词发现模块,采用大规模语料新词发现技术,将得到新词词典和领域词典中的词汇加入到原有的词典中,构成新的分词词典。然后对原始的领域语料进行分词,得到分词后的领域语料为概念抽取做准备。

 

(1) 新词发现

 

要从海量文本中发现新词,通常考虑三个因素:字符串在文本中出现的频率、字符串的内部聚集程度和边界划分能力。本文采用基于大规模语料的新词发现技术,并分别用互信息和信息熵衡量一个字符串的内部聚集程度和边界划分能力。给出判断该字符串能否作为一个新词的评价指标,公式如下所示:

 

[Walue=log(Mi+1)?log(min(leEntropy,riEntropy)+1)]

 

式中:Mi代表字符串的互信息;le_Entropy代表字符串左邻字集的信息熵;ri_Entropy代表字符串右临字集的信息熵。

 

(2) New分词词典

 

本文采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS分词工具,将领域词典、新词发现得到的新词词典和原有的分词词典组成新(New)分词词典,利用New分词词典对语料库进行分词。

 

2.2 领域概念候选词抽取

 

采用基于word2vec的领域概念候选词抽取算法。word2vec是一个把词转变为向量的工具,可以通过两个向量之间的余弦值得到两个词的相似度。本文将与种子概念具有一定相似度的词汇作为领域概念候选词,具体步骤如图3所示。利用word2vec工具对分词后的原始语料进行训练得到词向量模型,将种子概念对输入词表进行初始化,利用该模型计算与输入词表具有一定相似度的词汇作为领域概念候选词。要扩大候选词数量,采取迭代的算法,将输入词表作为迭代变量,将输出词表与输入词表的差集作为输入变量,再次调用词向量模型抽取候选词,直至符合迭代结束条件停止。

 

使用word2vec工具训练词向量模型步骤如下:

 

(1) 将文本语料进行分词,并以空格或Tab隔开。

 

(2) 将分好词的训练语料进行训练,假定语料名称为test.txt且放入word2vec目录中。

 

(3) 训练好模型之后,得到词向量模型文件vectors.bin。

 

得到词向量模型后,便可以通过计算两个向量的余弦值来计算两个词的相似度。本文提出利用word2vec工具训练得到的词向量模型抽取种子领域概念的相关词汇,将相似度大于某一阈值的相关词作为领域概念的候选词。要扩充候选词集,设计迭代算法,将得到的输出词表与输入词表的差集作为输入,再运行程序得到更多领域概念候选词。算法流程如下:

 

(1) 程序初始化,将从领域词典中选取的种子概念对输入词表进行初始化;

 

(2) 调用word2vec的词向量模型抽取输入词表中概念的相关词汇,并将这些相关词汇作为领域概念候选词;

 

(3) 将抽取得到的候选词集合作为输出词表输出;

 

(4) 根据结束条件判定程序是否结束,如果不符合结束条件,则计算输出词表与输入词表的差集[S,]将[S]作为输入词表,转步骤(2),符合结束条件,程序结束。

 

该算法采用迭代算法以期获取更多的领域概念候选词,从而扩充候选词集。由上述算法流程可见,该算法中的迭代变量为输入词表,输入词表经过word2vec训练的词向量模型得到一个输出词表,然后将输出词表与输入词表的差集赋值给输入词表,再次进行抽取,这就是迭代过程。迭代算法中迭代结束条件可以是程序循环次数、输出词表与输入词表差集中元素的个数小于某个阈值和抽取概念的个数达到一定的数量等几种情况,具体的结束条件可根据需求的本体规模来确定。

 

2.3 领域概念候选词评价

 

采用迭代算法可抽取出大量的领域概念候选词,然而本体的概念应是精炼的,本体的规模也是确定的,应对这些基于word2vec得到的领域概念候选词进行过滤,进一步提取领域概念。本文以种子概念为基准,计算概念候选词与种子概念的语义相似度,认为候选词与种子概念在语义上越相近,该候选词与领域越相关,本文将语义相关度高的词语作为抽取的领域概念,具体流程如图4所示。

 

采取基于双序列对比的中文术语语义相似度计算方法进行语义相似度计算,该方法有效地利用《同义词词林2》对词语进行有效的语义相似度计算,并且对组合词语之间的相似度也进行了深入研究,效果较好。

 

3 领域本体概念关系抽取

 

本体概念之间的关系主要包括同义关系、上下位关系、整体?部分关系等。其中,同义关系和上下位关系是基本的语义关系,构成了本体的基础框架。

 

3.1 同义关系抽取

 

本文利用中英文词典抽取概念间的同义关系。假设概念C1翻译得到的英文单词或短语有[{w1,w2,…,wn},]概念C2翻译得到的为[{w′1,w′2,…,w′m},]如果两个集合有交集,即两个概念有相同的英文解释,就认为这两个概念具有同义关系。将一个概念与其相关概念组成的概念对集合作为关系解空间,从解空间中抽取同义关系。为了抽取更多的同义关系,需要扩大关系解空间。

 

3.2 上下位关系抽取

 

本文提出了一种基于概念对的语义特征和语境特征的特征向量来抽取具有上下位关系的概念对,从概念对的构词、共现、特征词出现数量、概念对在句中位置的距离出发,构建概念对上下位关系的特征向量,并使用支持向量机(SVM)进行训练和预测,从而实现本体上下位关系的抽取。具体算法实现如下:

 

步骤1:初始化所有的概念对和特征词;

 

步骤2:判断一个待计算特征向量的概念对是否符合扩展的包含原理,是则该概念对的特征向量[T]为(1,0,0,0),否则该概念对的[T1]值标记为0,进行步骤3;

 

步骤3:利用百度搜索引擎,对概念对进行查询,保存查询结果的前10条,计算该概念对的特征向量[T;]

 

步骤4:判断是否所有的概念对处理完毕,否,则转步骤2,是则形成特征集[W(T);]

 

步骤5:调用LIBSVM工具,将[W(T)]导入到训练集中;

 

步骤6:设置SVM训练参数,分别选用4种核函数进行实验,选取分类效果最好的核函数;

 

步骤7:运行程序,从概念与其相关的概念组成的概念对中抽取上下位关系。

 

4 数字图书馆气候变化领域本体半自动化构建

 

本文采用气候变化领域主题网络爬虫方法从Web上采集与气候变化领域有关的数据,共采集了1.5 GB的Web领域数据,数据的来源主要有2个。其中,基于开放搜索引擎搜索和气候变化权威的领域内新闻共有198 104篇,数据1.04 GB,百度百科领域内数据105 660篇,数据556 MB。本文利用这些从Web上采集的领域数据作为初始学习语料,从中自动的抽取气候变化领域本体概念和概念之间的关系,形成初始本体,最后利用本体编辑器,由领域专家人工对初始领域本体进行审核和编辑,以得到更为完善的知识体系和更为精准的本体描述。

 

4.1 基于word2vec的领域概念抽取实验

 

(1) 中文分词

 

采用中科院计算所的ICTCLAS分词工具对原始语料进行分词,在分词前,首先对原始语料进行新词发现,再将新词发现的结果和构建的领域词典中的词添加到原有分词词典中,形成新的分词词典。

 

实验中采用基于互信息和信息熵的新词发现技术从采集的气候变化领域语料中发现新词,本文只抽取5个字和5个字以下的词语,实验过程中,首先对字符串进行频率过滤,设定频率阈值,如果大于该阈值,则再进行信息熵过滤,否则,直接将其排除。由于目前还没有统一的设定阈值的标准,本文中的阈值都是经过反复试验,选取使效果较佳的阈值。实验发现新词情况如表1所示。

 

利用原有分词词典和在原有分词词典的基础上加入新词词典和领域词典后,对语料进行分词的结果进行对比,其结果证明采用新的分词词典进行分词,分词的准确率大大地提高了。

 

(2) 领域概念候选词抽取

 

首先对采集的气候变化领域语料利用原有的分词词典进行分词,利用word2vec工具对该分词文件进行训练,得到词向量模型文件vectors.bin。采用构建的领域词典作为初始输入词典,通过调用词向量模型文件vectors.bin,计算与种子概念距离近的词汇,得到领域概念的候选词。

 

(3) 领域概念候选词评价

 

采用双序列比对的中文术语相似度计算方法,将获得的11 032个领域概念候选词与领域词中的种子概念做语义相似度计算,本文将与种子概念相似度大于一定阈值的候选词选作领域概念。实验过程中,该阈值取0.7。利用构建的领域词典中的1 080个词汇作为种子概念,采用两种方法做对比实验(将基于前后缀的中文领域术语抽取方法称为原有算法,将本文采用的基于word2vec的领域本体概念抽取算法称为改进算法),实验结果如表2所示。

 

由表2可见,改进的算法无论是在领域概念抽取词抽取环节还是领域概念候选词评价环节,不仅大大地增加了抽取词汇的数量,而且领域术语所占的比重也比之前提高了。

 

4.2 概念关系抽取实验

 

(1) 同义关系抽取。本文采用在线的有道词典进行约束,同义关系抽取结果如表3所示。由实验结果可知,得到的结果准确率较高但召回率比较低,由于使用词典约束以及关系解空间等因素影响了召回率,可通过对数据进行扩充,其中包括使用word2vec的训练语料和双语词典等改进方法来提高召回率。

 

(2) 上下位关系抽取。本文从关系解空间中抽取上下位关系,从中选取并手工标记800对概念对,其中正例400对,反例400对。实验中,在800对正反例中各取大约3/4的向量作为训练集,剩余的1/4对作为测试集。将本文提出的基于特征向量的本体概念上下位关系验证与基于百科的术语关系抽取方法进行对比验证,对比结果如表4所示。

 

从实验结果可得:本文提出的基于特征向量的上下位关系验证方法具有更高的准确率、召回率和[F]值,而且采用本文提出的算法比基于百科的术语上下位关系抽取发现的具有上下位关系的概念对多。

 

4.3 数字图书馆气候变化领域本体的应用

 

气候变化问题已经逐渐成为各界热议的焦点,世界各国的统计部门、气象部门等都已经积累了庞大的数据集,研究者很难从庞大而分散的数据集与观点成果中快速找到期望的信息,更难以在这些信息中寻找数据之间的关联与规律。基于以上问题,设计开发出了针对气候变化领域的RSS阅读器系统。新闻、数据文件等以本体的组织框架进行组织。点击某一知识节(领域概念),便可查看相关的新闻信息等,操作方便快捷。用户通过该阅读器系统能实现对气候变化领域内最新、最全新闻信息的实时获取,从而减少人工搜索和筛选的工作,提高了新闻信息搜索效率和信息推荐的准确度。

 

5 结 论

 

本文探讨了领域本体构建方法,设计了一种基于Web的领域本体半自动构建方法,对基于word2vec的数字图书馆本体构建技术进行研究,采用基于中英文词典的方法抽取同义关系,提出基于特征向量的上下位关系抽取算法。基于此,设计开发出了针对气候变化领域的RSS阅读器系统,通过实验及实际应用证明文中所提方法缩短了本体开发周期,节省了大量的人工参与,自动抽取本体质量较高。但领域概念抽取结果依赖于word2vec工具,具有一定的局限性,因此,可以考虑混合其他的概念抽取方法来获取领域概念。

数学建模经典算法范文第4篇

摘 要: 为了更好地向用户提供个性化的Web检索服务,实现了一种改进的个性化词典的生成算法——IGAUPD,用于在用户浏览的大量兴趣网页中挖掘出真正符合用户兴趣的词语,以此缩小传统词库的容量,使得在用户兴趣建模时,能更快更准确地形成兴趣网页的特征描述,并更好地支持个性化检索。IGAUPD算法采用新的词权计算公式IWTUPD,以更好地描述词语在网页集中的重要性,有效排除频繁词。最后,用实验验证了由IGAUPD算法生成的个性化词典的优势。

关键词: 个性化词典; 频繁词; 用户兴趣建模; 二级向量; Web检索服务

中图分类号:TP391.3 文献标志码:A 文章编号:1006-8228(2012)11-01-03

Research and implementation of personalization dictionary for web retrieval service

Li Lipei1, Luo Ying2

(1. College of Mathematics and Computer Science, Yangtze Normal University, Chongqing 408100, China; 2. CISDI)

Abstract: For the sake of providing better personalizing service of web information retrieval for users, an improved generating algorithm of user personalizing dictionary has been accomplished in the paper, which can be used for mining the terms which can tally with interests of users truly from a mass of web pages that browsed by users, resulting in narrowing the size of traditional dictionary, helping to generate the feature description of interested web pages more quickly and accurately, and supporting the personality retrieval better. The importance of words in the web pages is better described and frequently-used words are excluded more efficiently in the IGAUPD, in which a new formula about the weight of words named IWTUPD has been used. Finally, some experiments have proved the advantages of the user personalization dictionary created by IGAUPD.

Key words: user personalization dictionary; frequently-used word; double vector; user interests modeling; the service of web information retrieval

0 引言

近十几年来,因特网上的各种信息呈指数级的速度增长,使得互联网用户想要快速找到其真正所需要的信息或资料越来越困难。因此需要针对每个用户提供个性化的检索服务,以解决因特网中信息的多样化与用户需求的专一化之间的矛盾。

数学建模经典算法范文第5篇

关键词:多属性决策;主客观评价对比;聚类分析;优势粗糙集;研究生学习能力

中图分类号:C934

文献标志码:A

文章编号:1005-2615(2015)01-0104-09

评价是指人们为实现预定的目标,在通过充分地信息收集的基础上,根据一定的主客观条件,采用科学的方法和手段,通过必要的分析与判断,从所有可供选择的方案中找出决策者最满意的一个方案进行实施,直至目标实现的过程。随着人类社会活动日益复杂多变,实际问题研究过程中涉及的系统和相应需要考虑的问题越来越庞大和复杂,需要从多个角度(属性、指标)进行全面、系统地分析,才能获得较好的决策效果。这一趋势推动了多属性(目标)评价研究和应用的产生和不断发展,成为现代决策科学的一个重要组成部分,在工程设计、经济、管理和军事等诸多领域中都有着广泛的理论与实际应用背景,如投资决策问题、项目评估、上厂选址、投标招标、产业部门发展排序、及经济效益综合评价等。

早期的经典的多属性决策方法有AHP,MAUT,OUTRANKING等,随着研究在深度和广度的拓展,出现了依托于模糊数学、灰色系统理论、神经网络以及粗糙集等的多属性决策模型,以及多种方法的结合用以解决不同决策场景。

图1归纳了多属性决策分析的大体步骤和决策分析输出结果。具体而言,多属性决策分析过程就是在对一个复杂决策问题进行详细分析和数据收集的基础上,进行建模分析,构建评价指标集和备选方案集;在此基础上,通过一定的决策模型(绝大多数研究是通过分析和集成指标权重信息和被评价单元在不同指标上表现信息,构建出评价模型),分析决策者对不同备选方法在不同评价指标下的客观表现偏好并进行偏好集成;最后,获得决策分析结果,一般包括多属性排序、多属性分类和多属性选最优3种形式。

当被评价者为具有主观能动性的个人或群体时,决策者除了考虑自身对不同被评价者的偏好外,往往还需要考虑被评价者对评价结果的接受程度或反馈信息(本文将被评价者自我的认知评价定义为主观评价信息,把决策者的通过模型分析的评价结果定义为客观评价信息),进行相应结果调整,否则评价的结果可能会难以被被评价者认可并起到正向激励作用。专门针对这一问题的多属性评价研究较少,但类似的研究可以归纳为以下几点:

(1)通过指标权重的变权体现主客观信息互动:考虑被评价者的不同因素,如成长性表现,在进行评价时对不同被评价者赋予不同的指标权重,从而达到一定的激励机制。由于目前没有一个统一公认的研究范式,不同的学者提出的变权方法差异较大。这一思想可以认为是权变理论在决策评价领域的一个应用。

(2)通过熵权法体现主客观信息互动:按照信息论基本原理的解释,信息是系统有序程度的一个度量,熵是系统无序程度的一个度量;如果指标的信息熵越小,该指标提供的信息量越大,在综合评价中所起作用理当越大,权重就应该越高。这种方法一般是通过构建权重使指标之间的离差最大化,使评价结果差异性显著,体现了一定的客观公正性。

(3)通过数据包络分析体现主客观信息互动:借鉴数据包络分析中计算投入产出效率时构建优化模型,被评价者可以自主确定投入和产出指标的权重。不同学者探索了如何将数据包络分析与多属性评价结合的方法。这类方法允许被评价者通过优化模型设置对自己最有利的权重,体现了一定被评价者的主观能动性。

此外,类似考虑主观与客观的信息互动的分析还可以包括从博弈和冲突分析方面的研究。

然而现有研究主要是从调节指标权重,实现主观与客观信息的互动,缺少从整体上描述主观与客观信息对比和差异分析的机制。同时现实乍活中存在着大量自我评价问卷信息,目前常规方法是进行统计分析,如假设检验、多元统计分析。但这些方法均是针对问卷信息进行的主观分析,如何有效地结合客观分析工具,进行对比分析研究,是本文研究的主要目的。由于这些问卷往往数据较大,上述模型针对大数量计算会导致过程复杂,因此不适合这类数据分析。

本文针对多属性分类问题(这种方法可以拓展到排序问题).综合多属性评价、统计和知识学习等研究领域,提出一种主客观对比方法,其优点包括:

(1)基于结果的主客观系统对比分析模型:针对不同的主客观结果对比以及主观结果内部特点情况,构建了主客观评价结果集成和调整策略,从而实现了系统的分析和对比;

(2)基于统计和粗糙集的典型样本学习方法:针对自我评价问卷类大总样信息,应用知识学习的思路,构建了基于粗糙集的客观评价模型,并针对如何有效发现典型学习样本,提出了基于k-means的典型样本选取策略;

(3)本文方法简洁、易于理解,不需要预设评价函数的约束,对决策者的偏好提炼不需要服从特定模型假设条件。

1 多属性主客观对比评价模型框架

1.1 主客观对比评价模型基本流程

图2为模型的整体分析流程,包括5个大模块:

(1)全部被评价数据集:对被评价数据进行采集和整理;

(2)基于聚类分析典型样本选择:由于问卷调研类信息往往数据量较大,当应用知识学习模型时需要从中选择具有典型代表性的数据进行学习,通过聚类分析,可以方便决策者识别出哪些具有典型样本性(一般基于数据的组间距最大化、组内距最小化):

(3)基于优势粗糙集的专家规则提取:应用优势粗糙集方法对通过聚类选取出来的典型样本进行学习,提炼规则,形成规则判断集;

(4)被评价者进行自身主观评价:邀请被评价者进行自我评价,很多情况下可以提前与模块(1)合并进行;

(5)主客观结果的比较与集成:进行两种结果的对比,并根据对比分析情况进行最终结果的集成。

2 基于聚类分析典型样本选择策略

如图2所示,模型采用粗糙集理论进行专家规则学习,首先从全部数据中有效地选择具有典型性的样本数据,因此本文提出了基于聚类分析的典型样本选择策略。

聚类分析指将物理或抽象埘象的集合分组成为由类似的对象组成的多个类的分析过程,它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚炎是将数据分类到不同组的过程,所以同一个组中的对象有很大的相似性,而不同组间的对象有很大的相异性。聚类分析的方法很多,有系统聚类法、模糊聚类法、动态聚类法等。这里采用最广泛使用的k-mcans聚类算法。其基本算法如下:首先随机选择k个数据作为初始中心,计算各个数据到所选出来的各个中心的距离,将数据对象指派到最近的簇中;然后计算每个组的均值,循环往复执行,直到满足聚类准则收敛为止。

图3构建了典型样本选取流程,其思路为将所有评价数据集作为聚类数据,通过k -means算法获得k个聚类中心点作为典型样本集P(P={p1,p2,…,pd,…,pk},h为样本总数)。

3 基于优势粗糙集的专家规则判断

集构建

粗糙集理论是由波兰料学家Pawlak教授1982年提出的一种关于不精确、不相容、不完备数据处理的规则学习方法,主要思想是基于不可分辨

4 应用案例:研究生学习能力分类

评价

4.1 研究意义及方案设计

中国教育部公布的“普通高等学校教学工作水平评估指标体系”中明确提出:“学校要根据社会的需要,自身的条件,找准自己的位置,明确在一定时期内学校的目标定位、类型定位、层次定位、人才培养目标定位、人才类型定位、服务面向定位等”。然而由于近几年研究生扩招,人们对研究乍培养质量存在不少疑问。为了深入研究这一课题,本文结合国内外学生学习能力影响因素研究,针对研究生学习能力方面的特点,把学习能力划分为自主学习能力、科研能力和创新能力3个维度,构建如表2所示的17因素作为学习能力的影响因素指标,用以分析其对研究生学习能力的影响。

通过基于网络平台的问卷调研的形式,得到南京大学、东南大学、南京航空航天大学以及南京农业大学4所研究型大学研究生的共248份有效问卷,调查问卷采用李克特5点量表法,即l=“很不符合”、2=“有些不符合”、3=“中等”、4=“有些符合”、5=“很符合”,要求被试者按照与自己的实际的符合程度打分。分数越高,表示学习能力或相关因素对学习能力的影响越强。同时问卷还获取了248学生埘自主学习能力、科研能力和创新能力3个维度的自我主观评价值(1~2分为学习能力低L,3~4分为学习能力中M,5分为学习能力高H)。

4.2基于聚类的典型样本选择

应用minitab统计软件中k-means模块将总体248个数据聚类,这里设定选取30个典型样本,即设定k=30,具体计算过程省略,表3为典型样本数据以及最后一列为邀请专家针对这30组样本,进行分类评价的结果(以自主学习能力为例,H代表高,M代表中,L代表低,科研和创新能力的分类类似,这里省略)。

4.3 基于优势粗糙集的专家规则提炼

针对表2,应用软件4eMka2对自主学习能力分类的决策规则进行分析。软件4cMka2主要用于样本学习和生成决策规则。首先输入样本数据,确认优势关系,生成语言规则;然后使用最小覆盖算法,提取影响学习能力的最小决策规则,如图4所示。

4.5 结果讨论

(1)从主客观评价结果对比来看,专家评价和自我评价结果整体上具有较大的一致性(创新能力和科研能力为主客观评价基本一致型,而图5中大部分评价结果重叠在一起);自主学习能力为主观评价超前)型,显示了学生在自我评价时高估了这方而能力,需要进一步引导学生正确认识自身的自主学习能力。

(2)决策规则的讨论:从家庭教育环境来看,较差的家庭教育环境很难培养出学习能力较强的学生;从学生个体因素来看,推理论证能力和自我激励能力对学习能力的影响都很大;从学习环境来看,培养模式的优劣对学生学-能力的影响最人,同时较强硬件设备和学术氛围以及培养模式往往能提高学生的学习能力;在教师效能方面,导师的学术水平也会影响学生的学习能力。