首页 > 文章中心 > 近似数与有效数字

近似数与有效数字

近似数与有效数字

近似数与有效数字范文第1篇

【关键词】近似数 有效数字 精确度

一、说教材

本节课是对比较枯燥和无味的数字进行处理,让学生感悟到近似数的基本内涵,用生活中大家熟悉的风景名胜万里长城、珠穆朗玛峰、南京长江大桥的长度和高度来导入研究对象,体现了数学来源于生活又服务于生活。在实际问题的基础上让学生认识生活中存在着大量的近似数,结合实际问题让学生充分认识有效数字,能按要求取近似数,体会近似数的意义及在生活中的作用。教学中采用的问题情境来源于实际,充分挖掘学生生活中与数据有关的素材,使他们体会所学知识与现实社会密切相关。

二、说教学目标

1.了解近似数和有效数字的概念并能灵活应用。

2.能按要求取近似数和保留有效数字;会判断近似数的精确度。

3.体会近似数的意义及在生活中的作用。

4.给一个近似数,能说出它精确到哪一位?有几个有效数字?

5.提高学生分析数据、处理数据以及解决问题的能力。

6.进一步体会数学的应用价值,发展“用数学”的信心和能力。

三、说教学重点和难点

本节课的教学重点是掌握精确度和有效数字的概念并能灵活运用。

本节课的教学难点是如何确定一个带单位的近似数和用科学记数法表示的有效数字的精确度。如何通过对近似数和有效数字的理解,正确求出一个近似数的精确度和有效数字。

四、说学情

通过风景名胜的教学,激发了学生学习数学的兴趣,通过多媒体课件的教学,学生对精确度和有效数字的概念比较感兴趣,于是自己积极动手找出了类似的例子,学生对生活中的近似数有了一定的认识,并经历了一些探索,积累了数学活动经验,具备了一定的探究能力,经历了很多合作学习过程。

五、说教学过程

在教学过程中让学生尽可能多的运用一些数据来介绍自己、班级、学校、家庭及国家的一些基本情况,学生介绍时,适时穿插提问,引导学生将他们所举例子中的数据分为准确数和近似数两大类。

先由具体的例子出发引出了近似数和有效数字的概念,让学生体会到现实生活中确实存在着近似数,并认识到近似数来源于现实生活,由此引入课题:近似数和有效数字,然后通过例题的讲解,使学生掌握近似数的两种形式:精确度和有效数字,给了一个题目,能确定它精确到哪一位,有几个有效数字,特别注意带单位的近似数和用科学记数法表示的近似数的精确度和有效数字的确定。

本节课通过为了突破认知上的障碍,我非常重视开头的引入教学,激发学生学习的兴趣,注重概念的引入,从实例出发,发展知识的形成过程,使学生不会觉得数学概念的学习是单调乏味的,同时采取了用符号标记有效数字的起始位置与终止位置的方法,结合几个典型的小题进行强化,为带单位的近似数和用科学记数法表示的近似数作了铺垫,通过让学生先尝试,将难点突破。

本节课教学过程中,我先让学生尝试做课本72页例2(5),再展示学生在问题中的错误答案,在学生通过自己思维产生困惑的时候,我及时切入讲解,用逆向思考法处理问题就容易多了。为此,可以总结为当原数整数部分的位数大于有效数字的位数或原数的位数高于要精确到的数位时就先写成科学记数法再取近似值,利用这一方法来解决问题就有章可循了。这样学生对所学内容理解更深,记忆更牢,学习效率更高。

在教学中通过先巩固正向思维,再逆向思维分层递进的训练,学生作业正确率较以前有较大提高。

在对精确度和有效数字进行处理的时候采用了对比的方式进行教学,有利于学生对知识的理解掌握与应用,课堂中提供了学生积极主动参与的时间与空间,尤其是最后由学生对本节课的小结相互的补充而由学生自己完成知识总结,学生的听课认真程度得以体现,同时学生的归纳总结表达能力都得以培养和锻炼,这节课能真正体现新课标下的教学理念。

六、说反思

1. 掌握和理解近似数、准确数、精确度和有效数字的概念,学生比较感兴趣。

2. 给出一个近似数学生能准确的确定它精确到哪一位,有几个有效数字。

3. 要求学生注意有效数字是从左边第一个不是零的数字起。

4. 从左边第一个不是零的数字起到精确到的数位止所有的数字。

近似数与有效数字范文第2篇

1. ■的平方根为( ).

A. 9 B. ±9 C. 3 D. ±3

2. 在3-■,■,■,■,■,■,0.202 002 000 2…中,无理数有 ( ).

A. 6个 B. 5个 C. 4个 D. 3个

3. 若式子■在实数范围内有意义,则x的取值范围是( ).

A. x>-5 B. x

4. 某市在一次扶贫助残活动中,共捐款3 185 800元,将3 185 800元用科学记数法表示(保留两个有效数字)为 ( ).

A. 3. 1×106元 B. 3. 1×105元

C. 3. 2×106元 D. 3. 18×106元

5. 下列说法正确的是 ( ).

A. 近似数5. 2×103与近似数5 200的精确度一样

B. 5. 8万和5. 8×103的有效数字一样

C. 近似数2千万和近似数2 000万的精确度一样,有效数字不同

D. 近似数3. 7和近似数3. 07的有效数字相同

6. 下列运算正确的是( ).

A. ■=3 B. ■=3 C. ■=±■ D. ■=-3

二、 耐心填一填(每空4分,共36分)

7. 比较大小:2■_______3■;■-π的相反数是_______;■-■的绝对值是_______.

8. ■3=_______;■=_______;-■2=_______.

9. 要使■=4-a成立,那么a的取值范围是_______.

10. x是-■2的平方根,y是64的立方根,则x+y的值是_______.

11. 若a-2+■=0,则a2-b=_______.

12. 一个直角三角形的两条边长分别为3、4,则第三条边长为_______.

13. 阅读下列材料:设x=0.■=0.333…①,则10x=3. 333…②,则由②-①得:9x=3,即x

=■. 所以0.■=0.333…=■. 根据上述提供的方法把下列两个数化成分数0.■= ,1.■=_______.

三、 专心做一做(共52分)

14. (16分)求下列各式中的x的值.

(1) 16x2-9=0; (2) 2x2=10;

(3) -2(1-3x)3=16; (4) 2(x+2)3=18.

15. (8分)计算:■-2-■-■.

16. (8分)在数轴上画出表示-■的点.

17. (8分)实数a、b在数轴上的位置如图所示,化简:■-■-■.

常熟市第一中学“实数”测试卷参考答案

1. D 2. B 3. D 4. C 5. B 6. B

7. < π-■ ■-■

8. -3 3 3 9. a≤4

10. 7或1 11. 1

12. 5或■

13. ■ ■

14. (1) x=±■ (2) x=±■ (3) x=1 (4) x=■-2

15. 6+■

近似数与有效数字范文第3篇

【关键词】网络教学;网络考试;主观题自动评卷

一、相关背景

随着计算机技术的不断发展和网络技术的日益普及,如何能最大限度的利用各类资源,快速提高技术人员的知识和能力水平成为社会的强烈需求。不管是在目前的高等学校,还是各类异地教育和培训机构,考试都是教学活动的一个重要环节[1],用来检测学习成效。随着考试类型的增多和考试要求的不断提高,特别是考生数量比较大时,教师的工作量也越来越大,组织一次完整的考试至少包括以下几个步骤:考生报名、人工出卷、试卷印刷、考生考试、人工评卷和成绩统计分析等,在整个工作过程中,由于接触的人员较多,通常还要考虑保密性方面的问题,例如教师需要找大量试题出多份试卷,再由选择其中一份或者两份作为考试用卷,试卷选择随意性大,凭教师的主观意愿来评定一张试卷的难易程度;还要联系印刷和送试卷等,花费教师们大量的时间和精力,通常效率低下,可以说传统的考试方式己经不能适应现代考试的需要。

本文根据作者所在的院系教学的需要,利用校园网强大的服务功能,要研究和设计的是一个完全无纸化考试系统,采用B/S结构,易于安装使用。系统实现了从自动组卷、考试到自动评卷的全部功能。本文对其中主观题的自动评卷技术进行重点研究。

二、自动评卷技术

网络考试的主要优点之一就是可以快速、客观地给出考试成绩,有效地缩短了考试周期,这一优点主要得益于网络考试的自动评卷[2]。

一般情况下,网络考试系统对于客观题可以进行自动评卷。客观题一般有判断题、单选题等。对于这类题,计算机可以采用字符串比较的方法,将考生的答案与标准答案进行精确的匹配评卷。

如果一个考试系统中的考题都是客观题,这样的试卷不是一份好的试卷,仅有这类题型的试卷对测试考生的能力还存在欠缺。因此,理想的试卷针对不同的学科还应该包括有主观题(问答、证明、计算、设计题)等多种题型。但是对于主观题,如论述题、简答题等没有统一答案的试题,目前还没有一种考试系统能很好地完成其自动评卷。对此我们进行了一些尝试,对自动评卷技术做一些详细的介绍。

主观题自动评卷涉及到人工智能、模式识别和自然语言处理等方面的理论[3-4],面临许多技术上的问题,从而成为网络考试系统中的一个技术难点[5]。主观题自动评卷技术主要由自然语言处理,中文分词技术[6],语句相似度计算三方面构成。其中自然语言处理技术和中文分词技术到目前为止还没有得到广泛的应用,原因在于对自然语言处理技术的研究还处在一个初级阶段,无法实现计算机能够百分之百地“读懂”人类的语言,同时由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,目前基于理解的分词系统也还处在试验阶段。所以基于语句相似度的主观题自动批改系统的实现成为本文研究的重点。在本系统中,由于开发时间短促以及各项条件尚不成熟,因而没有全面地实现主观题自动评卷模块的设计,但在本文先分析了目前使用主观题自动评卷技术中的一些算法,以期能抛砖引玉。

(一)基于词语匹配的相似度法

1.思路分析

分析教师的评卷过程,教师在人工评阅主观题时一般是预先制定好一套评卷标准,然后将每道试题的总分划分成若干部分,将分数分配到试题的求解过程中的一些关键的步骤或关键的词语上,通常称之为得分点,评阅时看学生的答案和标准答案的各个得分点的贴近度,贴近度高则得分高,最后查看一下学生答案的语句是否通顺、是否有条理性等,综合地给出一个适当的分数。

根据上述分析,可以发现,影响评卷的因素主要有两个:一个是得分点,另一个是学生答案和标准答案的贴近度。可以将每个得分点转化为每道题目的标准答案关键字,用这些关键字去匹配学生答案,根据匹配程度的高低,决定得分的高低。对学生答案和标准答案的贴近度的表示可采用模糊数学中贴近度的概念进行描述[7],而对于语法结构则不做过多考虑,这样,一方面可以避免对句子进行复杂的句法分析,另一方面也可增加系统的健壮性,如学生答案中出现无关大局的语法错误时,只要其概念表述正确,系统仍然可以给出相应的贴近度评价,这与教师的评卷过程是相符合的。最后,再根据关键字和贴近度在评卷时所占的权值比重,计算最终成绩。

2.算法设计

(1)相关定义

为解决学生答案和标准答案的贴近度表示问题,可以把学生答案和标准答案均看成字符串,下面对单向贴近度的概念进行定义。

把一个字符串分解为单个字符,并把它们构成的有序集合称为一个模糊集,U={u1, u2,……,un}称为论域,论域u上的全体模糊子集所组成的集合记作F(U)(也叫模糊幂集)[7]。

为度量两模糊集的接近程度,引入单向贴近度的概念。

定义1:

设U={u1,u2.......,un},A,B∈F(U)。若映射d:F(U)×F(U)[0,l],满足条件:

d(A,A)=l;d(B,B)=1;

若A包含于B,而B包含于C或A包含B,而B包含C,则d(A,B)≥d(A,C)称d(A,B)为A贴近于B的单向贴近度。

定义2:

设A、B是字符串,A中包含n个字符,d(A,B)表示A贴近于B的单向贴近度,按照从左到右的顺序,集合A中的每个元素在集合中出现的有效次数之和记为m,则d(A,B)=m/n,容易验证,它满足单向贴近度的定义。

(2)算法说明

为说明方便,以字符串A和B为例介绍计算字符串A贴近于字符串B的单向贴近度d(A,B),步骤如下:

把查找字符串A分解为单个有效字符。在分解前,首先判断左边第一个字符是双字节字符还是单字节字符,如果是双字节字符就按2个字节截取,如果是单字节字符则按l个字节截取。把字符串A分解为若干个有效字符u1,u2,……,un。

判断A分解后的单字符是否包含在被查询的字符串中。这里假定所要查找的字符串分解前和分解后是有顺序的,所以不能简单地使用是否包含来判断。本文的做法是:判断第一个字符u1是否包含在字符串B中,如果不包含则标记为0,否则标记为l,并从B2中去掉包含u1的字符,对B进行第二个字符u2的相同处理,一直把u1,u2,……,un。判断完毕。

计算单向贴近度d(A,B)。计算A分解后的单字符u1,u2,……,un在B中出现的次数之和m占A总有效字符数n的比值,并记为d(A,B)。

3.自动评卷实现

根据上述分析,可以得出主观题的评卷公式。

(1-1)[7]

式中各符号的含义如下:

Sim1(A,B):是学生答案与标准答案的相似度;

A:学生的实际答案。学生交卷后保存在学生答卷库中;

B:试题的标准答案。出题时生成,从题库中读取;

P:关键词在该题目中所占分值的比例,0≤P≤1。组卷时生成,也可评卷时修改,从试卷库中读取;

1-P:关键词以外的因素在该题目中所占分值的比例;

n:关键词的个数。根据题库中的关键词信息由程序计算得到;

Ki:第i个关键词,1≤i≤n。根据题库中的关键词信息由程序拆分得到;

dki(Ki,A):第i个关键词与学生答案的单向贴近度,1≤i≤n。由程序计算得到;

dk0(K,A):关键词与学生答案的单向贴近度阀值。组卷时生成,也可评卷时修改,从试卷库中取得。

其含义是:

当dki(Ki,A)

当dki(Ki,A)≥dk0(K,A)时,dki(Ki,A) =dki(Ki,A)。

da(A,B):标准答案与学生答案的单向贴近度。由程序计算得到;

da0(A,B):标准答案与学生答案的单向贴近度阀值。组卷时生成,也可评卷时修改,从试卷库中读取。其含义是:

当da(A,B)

当da(A,B)≥da0(A,B)时,da(A,B)=da (A,B)。

从公式中可以看出,主观题的评卷受P,dk0(K,A),da0(A,B)三个参数影响,P增大,关键词在评卷中占的比重就增大,反之则减小;一般来说,dk0(K,A),da0(A,B)增大,则表示评卷标准提高,反之,评卷标准降低。因此,通过调整这三个参数,即可实现对评卷标准的调整。这三个参数可在组卷时设定,保存在试卷信息中,也可在评卷时进行调整。

(二)基于语义信息的相似度法

1.思路分析

基于关键词信息的方法由于没有考虑词本身的词义信息以及同义词、近义词等语义关系,实际应用于自动该卷系统有一定的局限性,基于语义信息的方法可以部分地解决这一问题。基于语义信息的相似度也就是两个词语意思的相近程度,它是句子之间意思相似程度的基础,也是答案比较研究的基础。它的相似度比较的准确性影响着答案比较的准确性,从而也影响着整个考试系统判卷的正确性[8]。

语义信息相似度对于主观试题评判非常重要,但是由于语义信息相似度是一个主观性很强的概念,所以一直以来如何更准确地计算两个词语之间的相似程度,都是国内外研究的难点。它很难直接给出一个公式来衡量两个词的语义信息相似程度。大部分国内外关于语义信息相似度的研究一般都是将所有的词语按其意思所属的类别组织成一棵或几棵树状结构,树状结构中每个节点相对应一个词语,该词语位于树的层次结构中所处的位置越高,表示它涵盖其他概念的能力就越强。那么,由于在一棵树形图中任何两个节点之间有且只有一条路径,可以将词语之间相似程度用树的节点之间的距离来衡量[9]。

2.算法说明

一般而言,词语距离是一个[0,∞]之间的实数。一个词语与其本身的距离为0,词距离与词语相似度之间有着密切的关系。

两个词语的距离越大,其相似度越低;反之,两个词语的距离越小,其相似度越大。二者之间可以建立一种简单的对应关系。这种对应关系需要满足以下几个条件[9]:

(1)两个词语距离为0时,其相似度为1。

(2)两个词语距离为无穷大时,其相似度为0。

(3)两个词语的距离越大,其相似度越小(单调下降)。

对于两个词语W1和W2,记其相似度为Sim (W1,W2),其词语距离为Dis(W1,W2)那么可以定义一个满足以上条件的简单的转换关系:

(1-2)[9]

其中是一个可调节的参数。的含义是:当相似度为0.5时的词语距离值。所以,假设词语组成的树的高度为H,那么两个节点最远距离为2H(根节点为0层),则可以等于树高H。当两个词语在不同的树中,那么它们的距离为∞。当然,的取值并不是唯一的。

本文主要是以知网的义原层次树为基础对词语的相似度进行研究[10]。在知网中,它认为词是由表达其意思的几个义原组合的,这些义原可以根据其义原之间的上下位关系构成义原层次树。在这棵树中,每个节点就是一个义原。由于所有的概念都最终归结于用义原来表示[11],所以义原的相似度计算是概念相似度计算的基础。

因为所有的义原根据上下位关系构成了一个树状的义原层次体系,可以简单地通过词语距离来计算相似度。假设两个义原在这个层次体系中的路径距离为d,根据(公式1-2),我们可以得到这两个义原之间的语义距离:

(1-3)[11]

其中p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个正整数。如果两个词语处于不同的义原层次树中,那么d为无穷大。是一个可调节的参数,本文中值为各义原层次树的树高。

本文所讨论的方法是以义原层次树为基础的,而义原层次树仅仅是按义原上下位关系组成的,因此用这种方法计算义原相似度的时候,并没有考虑到义原的其他关系,如反义关系,对义关系等。尽管考虑其他义原关系会增加义原相似度计算的准确性,但是基于对系统复杂程度的考虑,只利用了义原层次树进行义原相似度的比较也是可以接受的,因此本论文中采用的都是单纯利用义原层次树来计算义原距离和词语相似度的方法,而没有考虑其它义原关系对词语相似度计算的影响。

3.算法实现

由于义原表达位置和词语多义的情况,使得两个词语的相似度比较要分为两个步骤:首先,在不考虑一词多意的情况下,对两个词语的比较。假设词语A(a1,a2,…,an)和词语B(b1,b2,...,bm),其中ai,bi分别为词语A,B的义原项。如果两个词语的第一个义原项相似度为0,说明这两个义原肯定不在一棵义原层次树中,由于第一义原对词语的影响最大,决定了词语的类型,因此,当两个第一义原相似度为0的时候,可以不用计算后面的其他义原相似度,直接认为两个词语的相似度为0。如果第一义原比较不为0的话,那么词语A与B的相似度就应该是A的第i个义原与B的第i个义原相比较的加权平均和[12]。即:

(1-4)[12]

其中义原项的权重:

(1-5)[12]

如果n不等于m,也就是说A和B的义原数目不相等,假设A>B,那么在B的义原项m之后的AB义原项比较的相似度可以看作是0。

在出现一词多义的情况下,假设词W有z个意思,那么它就有z个义原组合情况Ai(i=1,2,……,z),那么W的第i个意思Ai又是由j个义原项组成Ai(a1,a2,……aj),因此,词语W与词V比较时,应该把Ai分别与V的义原项进行比较,取最大相似度为词语W与V的相似度。

(三)基于融合的语句相似度法

完整地表达一个句子的信息,不但依赖于组成句子的词汇的信息,而且还依赖于词汇之间的语义信息。本论文从句子结构信息和词汇之间的语义信息进行研究,以便更准确地进行句子相似度计算。

我们的目标是将句子的词形(词语匹配技术)、词义(词语语义信息)组合起来,扬长避短,互为补充,共同描述一个句子,从而根据这些特征计算学生答案和标准答案之间的相似度,获得较高的准确率。

因此可将前两种方法相结合提出:

(1-6)

由于不同层次对句子相似度计算的贡献不同,该方法对每个层次加了不同的权值,从而使相似度计算达到最优。其中两个权值的设置规定为:

(1-7)

由此得出如果一道题目的分值为S0,则最后得分S为:

(1-8)

(四)自动评卷测试

为了验证用基于语句相似度的三种算法进行自动评卷的可行性和有效性,我们抽取了07网络1班的《数据结构》试卷来进行实验,班上一共有20个学生参加了考试。每份考卷中都有1道简答题,并且教师已经对其人工评卷完毕,这样能够方便地计算出准确率。

我们以考题“什么是算法”为例,标准答案为:“算法是问题求解规则的一种过程描述(即计算机解题的过程)。它具有5个基本性质:确定性、有穷性、可行性、输入和输出。”设定好该题目的分值为10分,其中一个学生的答案是“算法是一种求解的过程,它具有逻辑性、可计算性和穷尽性”。分别通过三种相似度方法的计算得出最终分值进行准确率的比较。

通过实验最后得出,基于融合的相似度计算方法把基于词表面信息的相似度计算和基于语义信息的相似度计算很好地结合在一起,充分发挥了采用词性和词义方法的长处,最后得到了较高的准确率。并且我们对测试错误的结果进行了分析,发现错误的主要原因在于两点,一个是在对基于词语匹配相似度计算中我们所定义的关键词拓展的不够,也就是未登录词导致的问题;另一个原因是在基于语义信息相似度计算中利用语义词典会给根本与题意无关的学生答案评了较高的分数,从而带来了错误的计算结果。

三、工作总结

本系统在做了大量的研究和调查的基础上,针对广东私立华联学院的实际情况进行开发建立了一个比较完善的网络考试系统原型,该系统可适用于各类学校、成人教育,职业培训和技术培训等机构在远程教育平台上进行考试管理,其推广使用对于教学管理的改革,使有限的师资发挥更大的作用等方面具有重要的意义。

参考文献

[1]罗红梅.基于J2EE架构的在线考试系统的设计与实现[D].硕士学位论文.

[2]孙卫.基于web的网络考试系统的设计与实现[D].河海大学计算机及信息工程学院,2007.

[3]魏晓宁.人工智能在自然语言理解技术上的应用[J].科技论坛,2005(10).

[4]金博,史彦军,腾弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005(3).

[5]董英斌等.基于网络的新型计算机考试系统[J].计算机工程,2001.

[6]龚汉明等.汉语分词技术综述[J].北京机械工业学院学报,2004.

[7]孟爱国等.一种网络考试系统中主观题自动评卷的算法设计与实现[J].计算机与数字工程,2005.

[8]高思丹,袁春凤.语句相似度计算在主观题自动批改技术中的初步应用[J].计算机工程与应用,2004.

[9]汪泱.主观文字试题评判相关技术研究[J].北京科技大学计算机学院,2006.

[10]刘群,李素建.基于知网的词汇语义相似度计算[Z].台北:第三届汉语词汇语义学研讨会,2002.

近似数与有效数字范文第4篇

关键词:字符识别;粗糙集;属性约简;特征选择;相似关系;数值属性

中图分类号: TP391

文献标志码:A

Algorithm of numerical attributes reduction based on similarity rough set

WU Min

School of Electrical Engineering and Automation, Hefei University of Technology, Hefei Anhui 230009, China

)

Abstract: As to the problem of interferential or noisy data reduction, an attribute significance evaluation principle was proposed based on the difference and similarity of attributes within objects. A numerical attributes reduction algorithm was constructed based on similarity rough set model, and it was extended to canonical rough set too. Experiments were carried out on two data sets, one is of license plate characters and the other is of UCI handwritten number, the experimental results show that the proposed algorithm can generate simpler but more powerful rules set than other reduction algorithms.

Key words: characters recognition; rough set; attributes reduction; feature selection; similarity relation; numerical attribute

0 引言

粗糙集理论是一种处理模糊和不确定性知识的数学工具[1]。粗糙集属性约简是一种有效的特征选择方法,被广泛应用于知识库约简[2]和特征选择[3]。近年来,一些关于字符识别的文献使用粗糙集属性约简方法,删除冗余属性,搜索分辨力高的属性集合,然后利用约简的属性集构成分类器[4]。这样可以降低分类器维度,并且保持分类能力。字符样本的属性一般是连续的数值型属性,受噪声影响大。基于等价关系的粗糙集处理数值属性数据时一般要经过离散化过程。根据信息论,离散化过程必然会引入信息损失。另外,等价关系粗糙集属性约简仅考虑属性集合在不同类样本上的差异性,一些在同类异类对象之间变化频繁、易受干扰的特征也会被选择,这些特征会降低分类器的性能。为了克服经典粗糙集理论处理数值属性对象的不合理性,一些文献将经典等价关系粗糙集理论扩展到模糊粗糙集[5-6]、相似关系[7-8]和邻域关系[9]粗糙集。胡清华等提出了基于邻域粗糙集模型的分类器[10]和数值约简算法[11]。本文在相似关系粗糙集框架中,提出一种结合属性综合分辨能力评价指标的数值属性约简算法。这种约简算法选择在同类样本间差异小的属性,可以克服粗糙集理论对噪声、干扰敏感的缺点。

1 相似关系粗糙集及属性约简

1.1 相似关系粗糙集模型

Т植诩理论将研究对象的集合称为论域U,Ф韵蟮氖粜灾涤蛭实数时论域空间为实数空间。相似粗糙集和邻域粗糙集通过在实数空间定义差异性度量,以此为基础建立相似关系和邻域关系,构成相似类和邻域粒子,从而实现实数空间概念的粒化。下面定义实数空间中的差异性度量。

定义1 论域中任意两个样本ti,tj (i≠j)在数值属性a上的相对差异性为:

diff(a,ti,tj)=|a(ti)-a(tj)|max(Va)-min(Va)(1)

其中Va为属性a的值集合,类似地定义样本ti,tj在符号属性或离散化属性a上的差异性为:オ

diff(a,ti,tj)=1,a(ti)≠a(tj)0,a(ti)=a(tj) (2)

定义2 Фㄒ迨粜a上的相似关系如下:オ

SIMa={(x,y)∈U×U|diff(a,x,y)≤ta}(3)

属性集合A上的相似关系为:オ

SIMA={(x,y)∈U×U|a∈A,diff(a,x,y)≤ta}(4)

其中ta为相似性阈值,ta∈[0,1]。 x,y∈U在属性a(属性集合A)上相似记为xSIMay(xSIMAy)。

相似关系允许相似个体存在差异,是比等价关系宽松的二元关系,当相似性阈值ta=0,相似关系退化为等价关系。

定义3 г诰霾弑砩隙ㄒ甯鎏x∈U的相似类为:SIMA(x)={y∈U |ySIMAx}。根据相似关系定义集合X∈U的下近似集为:オ

ИSIMA(X)={x∈U|SIMA(x)X}。

上近似集为:

ИSIMA(X)=∪x∈XSIMA(x)

显然ИSIMA(X)X联SIMA(X)。X的近似边界为:

BN(X)=SIMA(X)-SIMA(X)

设决策属性{d}将论域U划分为X = {X1,X2,…, Xr(d)},集合オ

POS(SIMA,{d})=∪r(d)i=1SIMA(Xi)

С莆相似关系下划分X的正区域。

相似关系粗集模型下定义相对约简如下。

定义4 属性集合R∈C是相似关系意义下C的相对约简当且仅当:

1)POS(SIMR,{d})= POS(SIMC,{d});

2)R′R,POS(SIMR′,{d})

1.2 相似性阈值的影响

图1所示为二维空间两类样本X1和X2,则t1属于X1的下近似,t3属于X2的下近似,t1 和t3是X={X1, X2}的正区域,t2为边界样本。从图1可以看出如果增大相似性阈值ta,则t1也会成为边界,因此正区域与ta有很大关系。

图片

图1 相似关系粗糙集

д区域POS(SIMA,{d})关于相似性阈值ta具有下列性质。

定理1 给定决策系统L=〈U,C∪{d}〉,属性子集A∈C:オ

(1)Иa∈A,0

(2)Иa∈A,ta>┆┆minti,tj∈Ud(ti)≠d(tj)diff(a,ti,tj)POS(SIMA,{d})肌iXi。

证明 (1)成立(2)成立,因此仅证明(1)。

б蛭POS(SIMA,{d})痢iXi=U,只需证明tk∈U,j,tk∈SIMA(Xj) 。オ

设tk∈Xj,对于tm∈SIMA(tk),a∈A ,diff(a, tk, tm)≤ ta

所以d(tm)=d(tk) tm∈Xj, SIMA(tk) Xj, 即 tk∈SIMA(Xj)。еけ稀

Ф理1说明哪些样本是属性子集A可清晰分辨的取决于人为设定的相似性阈值tA=[ta1,…,ta|A|]。tA是属性子集A可清晰分辨的不同类样本最小差异度,随不同类样本允许差异度下限的增大,属性子集A可清晰分辨的样本减少。另一方面,设定了相似性阈值tA,在属性个数相同的条件下,card(POS(SIMA,{d}))越大的属性集合A价值越高。

1.3 分辨信息表

为了衡量属性在同类、不同类对象上的相似、相异性,这里引入分辨信息表 (Distinction Table,DT)。

定义5 设决策表T=〈U,C∪D,V,f 〉,论域U={t1,t2,…,tn},条件属性C={c1,c2,…,cm},决策属性D={d},则分辨信息表DT=〈U*,C∪D,V*,f*〉,其中U*={(ti,tj)},i≠j,i,j=1,2,…,n,(ti,tj)简记为tij,属性值域V*=[0,1],信息函数f*:U*×RV*,f*为差别函数diff。

与二进制分辨矩阵[12]相比,分辨信息表增加了同类样本的属性差异信息,这样,可以从属性在同类样本上的相似性和不同类样本上的相异性两方面度量属性价值。

┑1期 ┪饷:基于相似关系粗糙集模型的数值属性约简算法

┆扑慊应用 ┑30卷

2 基于属性综合分辨能力的约简算法RSDA

2.1 属性综合分辨力评价指标

根据好的属性集合在不同类样本上相异概率高而在同类样本上相似概率高的原则[13],利用定义1描述的差异性度量可以定义属性综合分辨力评价指标如下。

定义6 а本ti,tj∈U,i≠j,设a为条件属性,a的属性价值为:

Sig(a)=∑ti,tj不同类ti tjdiff(a,ti,tj)/Δ(ti,tj)-

∑ti,tj同类ti tjdiff(a,ti,tj)/Δ(ti,tj)

其中Δ(ti, tj)为满足条件的样本对(ti, tj)的个数。

属性价值Sig的含义是:若属性a区分开一对不同类样本,a的贡献为差异度量diff(a, ti, tj),差异越大贡献越大;若a区分开一对同类样本,a的惩罚为-diff(a, ti, tj),差异越大惩罚越大。平均贡献与平均惩罚之和反映了属性区分样本的整体效应,采用均值有利于避免个别包含噪声或错误的数据对属性评价的影响。由于属性不能清晰分辨相似样本,计算属性价值时仅考虑不相似样本上的差异。

2.2 相似关系粗糙集的属性约简算法S_RSDA

属性约简算法S_RSDA从空集出发,а袷S嗍粜约合中Sig最大且至少能清晰分辨一对样本的属性加入约简集,е钡剿有的样本对都至少能被约简集的一个属性清晰地分┍婵。

S_RSDA算法的步骤如下:

步骤1 Ц据原始数据集构造分辨信息表DT,DT中个体tij在属性a的值为:

a(tij)=

diff(a,ti,tj),diff(a,ti,tj)≥ta

0,diff(a,ti,tj)

步骤2 REDUCT=;

步骤3 对分辨信息表DT计算所有属性的综合价值Sig(a);

步骤4 а袷粜约壑底畲蟮氖粜a*=┆argmaxk Sig(ak);オ

If Иtij∈DT,d(ti)≠d(tj)& a*(tij)≠0,

将a*加入REDUCT,オ

去掉该属性所在的列和a*(tij) ≠0∧d(ti)≠d(tj)

的所有行;

Else

a*不能分辨余下的不同类样本对,转步骤6;オ

步骤5 If Х直嫘畔⒈DT中没有不同类的样本对,オ

转步骤6,

Else

转步骤3;

步骤6 Output REDUCT。オ

经典粗糙集RSDA(C_RSDA)算法步骤与S_RSDA相同,不同之处在于分辨信息表DT的任一个体tij在属性a上的值为:

a(tij)=

1,a(ti)=a(tj)

0,a(ti)≠a(tj)

3 实验结果与分析

3.1 实验数据

3.1.1 车牌数字字符

实验样本是通过随机拍摄的车牌图像经字符自动分割算法获得,样本字符均为经过位置和大小归一化处理的二值化图像。字符图像大小归一化为64×64像素,然后分成8×8个网格,统计每个网格中的黑像素个数作为该网格特征值。所有64个网格特征值组合起来构成粗网格特征,ё魑字符的条件属性C={c1,…,c64},决策属性为字符类别d={0,1,…,9}。条件属性值离散化为3个区间。样本总数为600,分成10类,每类60个样本,随机分成训练样本和测试样本,训练样本为540个,测试样本为60个。

图片

图2 车牌数字字符样本

3.1.2 mfeat手写体数字字符

UCI数据库中的mfeat数据集提取自荷兰支票上的手写数字,包括“0”至“9”10个类别,每类200个样本,共2B000个手写数字样本。样本字符是15×16像素二值图像,见图3。

图片

图3 根据mfeatpix恢复的字符图像

本次实验选择76个 Fourier 系数和64个 KarhunenLove 系数作为决策表条件属性构成数据集mfeat_foukar,数字类别作为决策属性。

3.2 C_RSDA与其他等价关系粗糙集约简算法比较

实验先对数据集约简,使用约简属性提取规则,然后采用最近邻方法分类。由于等价关系粗糙集约简只能处理离散属性,一些约简算法需计算正区域,难以处理全部mfeat数据集,本次实验从mfeat数据集随机选择了900个样本的训练集和200个样本的测试集,将属性值等距离离散化为三个区间。实验在车牌字符集和mfeat_foukar字符集上测试了C_RSDA和常用等价关系约简算法的性能,实验结果见表1和表2。

C_RSDA将属性同类相似性作为选择因素之一,与仅以不同类对象分辨能力为标准选择属性的约简算法比较,其约简集导出规则的覆盖率和泛化能力有显著的提高。在识别率方面,C_RSDA搜索到的约简集识别率优于其他约简集,说明同类相似性高的属性集合具有较高的分类能力。

表格(有表名)

表1 C_RSDA与其他约简算法性能比较:约简率、识别率

约简算法

车牌字符

属性个数识别率

mfeat_foukar

属性个数识别率

Johnson*90.94****

Jelonek100.88160.570

MIBARK90.96160.620

JC_filter[14]100.96380.570

C_RSDA90.96170.725

不约简641.001400.755

注:* 使用ROSETTA V1.4.41计算,**未能获得约简。

表格(有表名)

表2 C_RSDA与其他约简算法性能比较:规则数

约简に惴ǔ蹬谱址离散化区间为2离散化区间为3

Johnson82219

Jelonek96235

MIBARK81214

JC_filter72214

C_RSDA82154

3.3 C_RSDA和S_RSDA约简性能比较

将数据集mfeat_foukar的属性值分别等距离离散化为2~5个区间,然后应用C_RSDA和S_RSDA约简离散化属性,并用S_RSDA约简未离散化属性。两种算法获得的约简属性对字符的识别效果记录于表3。

表格(有表名)

表3 C_RSDA与S_RSDA约简集分类正确率及约简率

约简に惴ㄖ副昀肷⒒区间数12345

C_RSDA

识别率―0.8250.7250.8050.83

属性个数―1617129

S_RSDA

识别率0.92*0.8250.7350.7850.785

属性个数5016181210

不约简识别率0.930.8750.7550.8950.895

注:*阈值ta=1/3;离散区间数为1表示不离散化。

根据实验结果C_RSDA约简离散属性对象的性能优于S_RSDA,但S_RSDA不必对连续属性离散化,是直接约简数值属性的方法,不仅约简了大量冗余属性,而且获得的约简具有接近全部属性的分类能力。

3.4 相似关系阈值对约简的影响

在S_RSDA约简算法中,相似性阈值ta是两个样本ti,tj属性值相对差异(|a(ti)-a(tj)|/Va)的控制参数。它控制了S_RSDA约简属性在不同类样本上的相对差异度下限。本次实验对每一个属性设定相同的阈值。图4显示在一定范围内增大ta,S_RSDA约简属性个数增加,近邻分类的正确率也随之提高。但是由于RSDA算法依赖不相似样本提供启发信息,Уta设置过大,Р幌嗨蒲本会大大减少,从而使算法选择的属性过少。

图片

图4 S_RSDA约简集识别率与相似性阈值的关系曲线

4 结语

本文提出一种综合评价属性在样本上差异性和相似性的量化指标,并应用于相似粗糙集属性约简,可选择同类相似性较高的属性集合,克服粗糙集理论对噪声、干扰敏感的缺点。RSDA应用于字符数据集时,在约简性能如规则数、识别率方面,优于常用启发式约简算法Johnson、Jelonek、MIBARK以及JC_filter算法。这说明粗糙集属性约简方法与特征选择的一些启发信息相结合,不仅可以去除冗余而且能选择性能优良的特征集合,从而降低了分类器的复杂度,改善了分类性能。

参考文献:[1] PAWLAK Z. Rough sets[J]. Communications of the ACM, 1995, 38(11):89-95.

[2] 苗夺谦,胡桂荣. 知识约简的一种启发式算法[J].计算机研究与发展,1999,36(6):681-684.

[3] GUYON I, ELISSEEFF A. An introduction to variable and feature selection[EB/OL].[2009-04-20]. jmlr.csail.mit.edu/papers/volume3/guyon03a/guyon03a.pdf.

[4] KIM D, BANG S Y. A handwritten numeral character classification using tolerant rough set[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(9): 923-937.

[5] ZADEH L A. Fuzzy logic = Computing with words[J]. IEEE Transactions on Fuzzy Systems, 1996, 4(2):103-111.

[6] RADZIKOWSKA A M, KERRE E E. A comparative study of fuzzy rough sets[J]. Fuzzy Sets and Systems, 2002, 126(2):137-155.

[7] STEPANIUK J. Similarity based rough sets and learning[C]// Proceedings of the Fourth International Workshop on Rough Sets, Fuzzy Sets, and Machine Discovery. Tokyo:[s.n.], 1996:18-22.

[8] SLOWINSKI R, VANDERPOOTEN D. A generalized definition of rough approximations based on similarity[J]. IEEE Transactions on Knowledge and Data Engineering, 2000,12(2):331-336.

[9] LIN T, GRANULAR Y. Computing on binary relations I: Data mining and neighborhood systems[C]// Proceedings of the Rough Sets in Knowledge Discovery. Heidelberg: PhysicaVerlag, 1998:107-121.

[10] HU Q H, YU D R, XIE Z X. Neighborhood classifiers[J]. Expert Systems with Applications, 2008, 34(2): 866-876.

[11] 胡清华, 于达仁, 谢宗霞.基于邻域粒化和粗糙逼近的数值属性约简[J].软件学报, 2008,19(3):640-649.

[12] WANG G Y, WU Y, FISHER P S. Rule generation based on rough set theory[C]// Proceedings of SPIE ― The International Society for Optical Engineering. New York :SPIE Press, 2000:181-189.

近似数与有效数字范文第5篇

我从事数学教学工作已有十余年,在与学生的交流过程中,发现他们经常将一些数学问题混淆,现将其归纳整理如下:

一、“近似数30000”和“近似数3万”和“近似数3×104”

近似数30000,精确到个位,有5个有效数字,它的精确值是大于等于29999.5且小于30000.5;而近似数3万,精确到万位,有1个有效数字,它的精确值是大于等于2.5万且小于3.5万;近似数3104,精确到万位,有1个有效数字,它的精确值是大于等于2.5104且小于3.5×104,三者是不同的。

二、分式的基本性质中 和

在 中,已知的分式是 ,由于c有等于0的可能,所以

不能变形为 ;而 中,已知的分式是 ,这就隐含着条件c≠0,所以 可以变形为 ,教学中,容易因 不成立,而误认为 也不成立。

三、“轴对称”和“轴对称图形”

轴对称是说两个图形的位置关系,涉及对象是两个图形;而轴对称图形是说一个具有特殊形状的图形,涉及对象是一个图形,因此它们是不同的,当然它们也有联系,如果把两个成轴对称的图形看成一个整体,那么它就是一个轴对称图形。反过来,如果把轴对称图形沿对称轴分成两部分,那么这两个图形就是关于这条直线成轴对称。

四、“ΔABC≌ΔA1B1C1”和“ΔABC与ΔA1B1C1全等”

ΔABC≌ΔA1B1C1,不仅明确了这两个三角形的相似关系,还限定了这两个三角形的对应关系,即:AA,BB,CC;而与全等,只明确这两个三角形的相似关系,并不能限定这两个三角形的对应关系,有六种情况:ΔABC≌ΔA1B1C1,ΔABC≌ΔA1C1B1,ΔABC≌ΔB1A1C1,ΔABC≌ΔB1C1A1,ΔABC≌ΔC1A1B1ΔABC≌ΔC1B1A1。教学中应注意,前者不需要分类讨论,而后者需要分类讨论。同理,这种情况也适用于三角形的相似。

五、“x=±2”和“x≠±2”

x=±2是x=2或x=-2的合并写法,也可以写成x1=2或x2=-2;而x≠±2则是x≠2且x≠-2的合并写法。在这里注意连接词“或”与“且”的区别。 “且”表示条件同时具备,缺一不可;“或”表示可以只要一个成立就行了。

六、“弧相等”和“弧长相等”

弧相等是指能互相重合的等弧,此时必有弧的长度相等,所以弧相等一定弧长相等;而弧长相等是指长度相等的弧,在两个半径不等的圆中,长度相等的弧不可能重合,所以弧长相等不一定弧相等。

七、“二次函数y=ax2+bx+c与x轴有一个交点”和“函数y=ax2+bx+c与x轴有一个交点”

二次函数y=ax2+bx+c与x轴有一个交点,已指明y=ax2+bx+c是二次函数,这就包含条件a≠0,二次函数y=ax2+bx+c与x轴有一个交点为( ,0);而函数y=ax2+bx+c与x轴有一个交点,没有指明y=ax2+bx+c是二次函数,因此存在两种情况:(1)当a≠0时,,二次函数y=ax2+bx+c与x轴有一个交点为( ,0),(2)当a=0时,一次函数y=bx+c与x轴的交点为( ,0),注意区别。

八、“随机取两个”和“取出一个不放回,再取一个”和“取出一个放回,再取一个”

在有些概率题目中,我们常常遇到这样的情况,“随机取两个”表明所取两个没有先后顺序之分,(A,B)与(B,A)是同一个结果,通常可以一一列举出所有可能结果;而“取出一个不放回,再取一个”则与顺序有关,(A,B)与(B,A)是两个不同的结果,可以通过列表或树状图得出所有结果。这两种都不会一个对象出现重复现象,即(A,A)与(B,B)。“取出一个放回,再取一个” 不但会与顺序有关,(A,B)与(B,A)是两个不同的结果,而且还会出现(A,A)与(B,B)这种一个对象重复出现的情形。

九、“一元二次方程ax2+bx+c=0(a≠0)有两个实数根”和“抛物线y= ax2+bx+c(a≠0)与轴有两个交点”

一元二次方程ax2+bx+c=0(a≠0)有两个实数根,即b2-4ac≥0,包含两种情况:(1)两个不相等的实数根(2)两个相等的数根,那么所对应的抛物线与轴有两个交点或一个交点;而抛物线y= ax2+bx+c(a≠0)与轴有两个交点,则所对应的一元二次方程必有两个不相等的实数根,即b2-4ac>0

十、“S圆锥侧 = 中的 ”和“S扇形= 中的 ”

这两个公式中出现了相同的字母 ,但两者所表示的意义截然不同。S扇形= 中的 表示弧长,而S圆锥侧= 则表示圆锥母线的长度。在有些题目中,我们需要将圆锥侧面展开为扇形,那么展开后圆锥母线 则变成了扇形的半径R,而并非弧长。

十一、“弧AB所对圆周角”和“弦AB所对圆周角”

弧AB所对的圆周角相等,而弦AB所对的圆周角则有两种可能:相等或互补。换言之,在同圆中,相等的弧所对的圆周角一定相等,相等的弦所对的圆周角不一定相等。

相关期刊更多

金山

省级期刊 审核时间1个月内

中共镇江市委宣传部

四川冶金

省级期刊 审核时间1个月内

四川省经济和信息化委员会

四川有色金属

省级期刊 审核时间1个月内

四川省政府国有资产监督管理委员会