首页 > 文章中心 > 有理数测试题

有理数测试题

有理数测试题

有理数测试题范文第1篇

【关键词】自适应测试;计算机化自适应测试(CAT);项目反应原理(IRT)

【Abstract】As an important method of judging peoples’ abilities , the kind of examinations is becoming more and more. As the science and technology is developing continuously, computerized Adaptive Testing (CAT) is used more and more widely. This article introduces the conception of CAT. It also presents the basics in theory of it------Item Response Theory (IRT), The author designed a Computer Adaptive Testing (CAT) blue print and developed a system based on this print. The CAT Theory and Method are introduced in this article.

【Key words】Adaptive Testing; Computerized Adaptive Testing (CAT); Item Response Theory (IRT)

自m应测验是一种新型的测试手段,操作起来各个阶段都比较复杂,涉及到试题选择与考生能力的估计,如果不适用计算机,会较难实施。与传统的纸笔测试相比,其速度更快,效率更高,也更准确。可以有效避免了传统测验中能力低者做难度高的试题,能力高者做难度低的试题这类情况。

基于自适应测试理论来建立基于计算机的自适应测试系统,还可以充分的进行试题分析,试卷分析等教学信息方面的工作。可以更真实地反应学习者的学习水平和特点,有利于教师对学生因材施教。

1 测试理论

计算机自适应测验建立在项目反应理论的基础上,从建设题库到选择试题,全部以项目反应理论为指导。“IRT称为项目特征曲线或潜在特质理论,它是根据某一数学模型,用项目特征曲线参数估计潜在特质的一种测量理论。”其中,最重要的两个概念是”潜在特质”和”项目特征曲线”。“潜在特质是指人具有相对稳定,支配其对相反的测验做出反应,并使反应表现出一致性的内在特征,一般用θ表示。决定某一行为的潜在特质往往不是一种,潜在特质的集合称为潜在特质空间。”

1.1 经典测试理论(CTT)和项目反应理论(IRT)的比较

在现代教育测量当中主要有两种指导理论:经典测试理论和项目反应理论。它们都有各自完整的试题分析的指标体系和评价标准,例如:难度,区分度、标准误差以及信度等。

一般情况下,绝大多数纸笔考试是基于经典测试理论的,它以信度,效度,区分度等为主要测量特征。但是经典测试理论有一个显著的缺点,被测试者的分数与题目的难易程度相关,即题目难度不会因为被测试者能力的高低而改变。项目反应理论正好可以克服这样的缺点,它依据被测试者的能力,根据不同的被测试者具体情况来出题,可以很好的克服传统测试理论的缺点。

1.2 项目分析参数

好设置合理的测试题目,需要对每一个题目进行分析,这包括难度,区分度,效度以及信度等。“难度就是试题的难易程度,是衡量一道题目质量的一个重要指标,难度和区分度共同影响并决定测试的鉴别性。”难度一般用可以用以下公式计算:P=R÷N(其中P代表试题的难度指数,R代表试题的答对人数,N代表考生人数)。“区分度是测评试题区分应试者能力水平高低的指标。”试题区分度高,则能够拉开不同水平应试者分数的距离,使水平高者得高分,反之得低分。区分度可用以下公式计算:D=(H-L)÷N(其中D代表区分度指数,H代表高分组答对题的人数,L代表低分组答对题的人数,N代表高分组与低分组人数之和)。信度是指人测试结果的一致性或稳定性,稳定性越大,一致的程度越高,就意味着测试结果越可靠。一般来说,测试的信度要控制在0.7以上。效度是指测试的有效性和正确性,即测试是否有效测量了它要测定的东西,是否达到它所预定的测评目标。效度是一个相对概念,而不是一个绝对概念,即效度只有高低之分,而没有全部有效和全部无效之分。

1.3 项目反应模型

项目反应理论(IRT)一种先进的测验理论。基于这一理论的测验模型称为IRT模型。IRT模型是一种数学模型,他定义了被测试者对试题的反应和潜在能力特质之间的关系。项目反应理论(IRT)建立了被测试者反应与试题参数和能力水平之间的非线性模型,具有参数不变性,估计出的能力值不依赖于测试题目样本的特性,同时可以根据题目信息量,选择与被测试者能力相匹配的题目,直到达到预定的测试精度要求。

2 自适应在线测试系统设计

2.1 自适应考试模型流程

此次考试模型设计通过测验算法来实现的。首先为被试者确定一个初始的特质水平估计值θ,根据这个值,给出第一个测验项目,答题之后,系统自动估计其能力值θ,再根据这个值来选择下一道题,并以此类推,直到测验条件满足,结束答题。

2.2 自适应考试系统模型设计

测试考试系统采用三参数模型,难度、区分度和猜测指标。在建立题库时,题目的难度、区分度指标都是由有经验的教师或者是该领域的专家进行初始设定,有一定的权威性。在以后考试的过程中可以根据实际情况进行修改。初始测试项目的选择:在初始项目中假设在测试开始前已经知道了所测试对象的相关情况,我们就以以往参加过测试的被测试者特质水平的平均值为初始估计值。应试者能力水平的估计:通过最大似然法通过被测试者的似然函数区最大值来求测试者的能力参数θ。测试项目的选择:在考生答题完毕,系统对次此考试进行测试项目分析,算出考生的能力参数θ,采用项目反应的Logistic模型中的三参数模式。

3 在线考试系统的设计

3.1 系统总体设计

系统包括了用户注册、登录、参加在线考试以及管理员进行试题录入、修改、删除、成绩查询、管理等功能,具有开放性、方便性和灵活性。可以实现向题库添加、修改和删除试题。对考生进行有效的身份验证登录后,选择进入考试系统,并要求在规定的时间内进行答题,当达到规定的时间后,系统将自动予以提示。一旦考生做完交卷后便能立即看到自己的考试成绩,并且其分数将被记入库中以供审核和查阅;另外,还可完全由计算机自动灵活、随机的抽取试题库中的各类试题组成各种形式的试卷,其内容会随着库中试题的改变而改变,而且,不同的考生生成的试题是不同的。在线考试系统的结构图1所示:

3.2 题型、数据库设计

考试系统的核心部分是稻菘獾纳杓疲系统能够快速合理的从后台的数据库中检索出相关的数据。数据库中表的设计通常,每一类型的试题都应有一个表结构。但考虑到目前系统存贮空间可以很大。我们采用把全部试题集中在一起的方案来建立数据(下转第277页)(上接第283页)表,每道客观题均有四个备选答案项,每个试题均具有题型,分值等数据段表示其属性。字段名一般是相应的英文单词。这样,查询起来较方便,会节约时间,也不致于造成数据十分杂乱等。

4 功能模块详细设计

考试系统主要包括以下模块

4.1 系统管理模块

管理员可以向题库中添加各种类型且符合要求的试题,也可以对它们进行修改和删除。同时,管理员也能对用户、考试题目、考试记录等数据进行管理。

4.2 成绩管理

考生每次考试的成绩都会被录入数据库,系统对这些数据进行加工统计分析。提供学生在线查看学生的成绩。

4.3 考试试卷管理系统

包括试卷的考试时间,单选多选的题量以及单选多选的分值(设定试卷的各项数值)。考试监控在线查看学生的到场及交卷情况。在线阅卷是针对主观试题的测试者在提交后,通过网络把答题的内容传到管理员(这里一般的教师就是管理员)的在线阅卷的浏览器上进行阅卷。

4.4 用户管理

进行用户的添加,删除,查询和登陆权限的设定。

4.5 在线考试模块

考生登录后,只要选择考试以后,就可以调出试卷进行在线考试。为了实现动态随机不重复的抽取试题,需要在选题过程中每选出一题,就要在试题库中作相应的标志,以便下次不会重复取出此题。试卷出来后要对试题库中的标志位复原。这样就会使每个考生的试卷都不同。考生的其答题信息通过单、复选按钮选择答案来反应。考试结束采取自主交卷和到了规定的时间自动题示有机结合的方式办法予以实现。

用户注册模块

该模块的功能是实现用户远程注册。用户输入想要注册的用户名、密码、重复密码、真实姓名和学号,提交之后由系统判断该用户是否已经存在,如果存在,就给出相应信息,如果不存在,就把用户输入的用户名和密码写到数据库中,完成注册。当然,在进入系统后,无论是系统管理员还是普通用户都可以修改更新自己的个人信息资料。

5 小结

本文通过对项目反应理论的研究给出了一个计算机网络在线考试系统的设计模型,可以提高测试的效率,才外还克服了传统组卷方法的随机性和偶然性,提高了随机组卷的合理性,实现透明管理,增强了测试的安全性,教师可以轻松的对题库进行操作和管理,能够方便的查询试题信息、考生信息和考试成绩,并在此基础上对成绩进行分析,极大的提高了效率。

【参考文献】

[1]李克东.教育技术学研究方法[M].北京师法大学出版社.

[2]傅德荣.教育信息处理[M].北京师范大学出版社.

[3]向广莉.CAT在远程教育中的应用[J].湖北教育学院学报2002,19(2).

[4]何利平.C程序设计非标准化试题CAT模型的建立[J].衡阳师范学院学报2003,24(3).

有理数测试题范文第2篇

关键词: 经典测量理论 信度 难度 区分度

一、引言

教育测量与评价是教育研究领域中重要的组成部分,是学科教学活动中科学管理的有效手段。《国家中长期教育改革和发展规划纲要(2010-2020年)》明确把提高教育质量作为教育改革发展的核心任务,并多次强调与教育质量的监测和评价相关的内容[1]。显然,在当前教育制度下,各种笔试仍是一种重要而有效的教育质量定量评价方式。试卷质量自然影响对教育质量的正确评价,因此,针对笔试试卷的质量分析显得尤为重要。

试卷质量的分析一般是利用经典教育测量理论(CTT: Classical Test Theory)和项目反应理论(IRT:Item Response Theory)进行分析。

经典测量理论又称为真分数理论,假定观察分数X与真分数T线性相关,即CTT的数学模型为X=T+E,其中,随机误差E服从均值为零的正态分布。该理论最重要的四个指标正是反应试卷是否真实可靠、准确有效、难易适中、鉴别力强的信度、效度、难度和区分度等测验质量指标[2]。当然,由于其比较依赖样本、信度估计精度不高、难度和被试水平没有定义在同一参照系上,同时,无法回答总分相同的考生的真实能力有无差异等问题,该理论也存在一定的局限性[3]。

项目反应理论是一种新兴的心理与教育测量理论。该理论的前提假设非常严格,主要包括单维性假设和局部独立性假设[4]。主要方法是在利用参数模型的基础上,利用项目特征曲线、试题信息函数进行探讨,同时利用EM算法,用边际极大似然估计方法寻找项目参数的一致估计[5]。

本文主要利用南宁市某中学2013年秋季学期数学期末考试成绩,在经典测量理论(CTT)范畴下探讨该次期末考试数学试卷的信度、效度、难度、区分度和成绩分布情况。通过试卷“四度一分布”了解试卷质量,并反馈教学效果情况。

二、基于CTT的试卷质量情况分析

1.成绩分布情况

一般而言,一份好的试卷考试的成绩都服从或近似服从正态分布,因此,考试成绩的正态性是考察试卷质量的一个首要指标。检验正态性的方法很多,常见的是利用直方图和卡方检验、K-S检验。从参加本次考试的872人中随机抽取387人的成绩进行检验,结果如图1所示:

图1 学生成绩的直方图

正态分布的K-S统计量显著性概率P值为0.095>0.05,因此,这次考试学生成绩服从正态分布。

2.信度

中学试卷中,选择题分数可简化为0,1得分情况来解释,解答题和填空题可以看成非0,1记分的项目。因此,选择题信度主要采用折半信度[斯皮尔曼-布朗(Spearman-Brown)公式、卢隆(Rulon)公式、弗拉纳根(Flanagan)公式]和库德-理查逊(Kuder-Richardson)信度(K-R20、K-R21公式)进行分析[7]。填空题和解答题为非0、1记分的项目,采用克龙巴赫系数进行统计,结果如表1所示。

表1 试卷信度分析结果

结果表明,每种方法计算的选择题信度都接近0.7,信度系数处于尚可使用范围之内。研究表明,对于标准化的大型测试题目信度要求一般要在0.9以上,而学校期末考试的信度在0.6以上即可接受[1]。选择题、解答题的克龙巴赫系数为0.905,可以认为填空题和解答题的信度非常好,综合考虑,试卷整体信度是可信的。

3.效度

效度(validity)是指测验结果的有效性或准确性,即通过测验能够正确测量出它所要测量的属性的程度[5]。测量的效度的种类很多,其中基于专家和教师对试题与所涉及的范围进行符合性判断的逻辑判断法的内容效度使用较多。内容效度是指测验内容对所要测验的全部内容的代表性程度。但一次考试很难包含学生所学课程的所有内容,因此只能选择具有代表性的试题进行考核,来了解学生的知识技能掌握情况[8]。

根据测量的目标与内容的双向细分表,经过该校7位一线数学教师(其中高级教师4位,中教一级2位,中教二级1位)不记名反馈信息来看,本次考试所设计的试题覆盖了所要测内容的主要方面,考查目标清晰明确,题型和分数结构合理恰当,总体符合考试大纲和教学要求。

4.难度

试题难度是反映考题难易程度的指标,一般而言是按照答对人数的百分比确定的,是衡量试卷质量的最主要的数量性指标,简单来说可以利用测验分数的分布情况和特征进行观测,例如考察测验分数的全距、零分、满分、众数、平均分数等相关指标进行定性的判断,也可以根据不同的情况,利用有关公示进行精确计算。

一般而言,难度的取值范围在[0,1]之间,取值越大,难度越小。难度在0.7以上的为比较容易的题,在0.4-0.7为中等难度的题,在0.4以下的则为较难的题或是难题。在实际教学中试卷难度水平的选择,应取决于测验的目的和试题的形式。如果测验是用于区分学生水平,那么应该将试题或试卷的难度系数控制在0.5左右,各试题难度值在0.2-0.8,同时各题平均难度值在0.5左右是比较适宜的[5]。

对于采用0,1记分的选择题,用通过率P、平衡猜测的校正公式CP和极端分组法计算各个试题的难度。

表2 选择题的难度

对于非0,1记分的填空题、解答题和总分,用难度系数和极端分组法计算各个项目的难度。

表3 填空题、解答题的难度

结果显示,就选择题而言,三种计算方法的计算的难度差异不大,整体趋势较一致,从三种公式的难度均值看,第1、2、5、6、7、8、9属于难度较小的题目,3、4、10、11、12属于难度中等偏上的题目,其中第4题难度最大,10,11,12三题难度也较大,选择题总体难度为0.767,属于比较容易,从试题编排上看,除个别题目外,整体趋势是容易的题型放在前面,中等难度试题放在题型中间,较难试题放在题型后面,较合理。

对填空题和解答题而言,题目难度显然大于选择题,填空题总体难度均值为0.499,难度中等,解答题总体难度均值为0,472,属于中等偏难程度,8道解答题的难易程度也和题目顺序基本一致,越难的题目越在后面,符合数学试卷的一般规律。

从考试成绩来看,难度系数为0.548,综合选择题、填空题、解答题三种类型的难度均值,整张试卷难度均值为0.579,和总分难度系数接近,因此,可以判定该份试卷总体难度适中。

5.区分度

区分度是反映试题效用的一个主要参数,同时也是试题对考生实际水平的鉴别能力,将不同层次的考生区分开来的统计量。若试题的测试结果是水平高的学生答对或者得高分,水平低的学生答错或者得低分,则认为试题的区分能力强。一般而言,区分度在0.4以上为最佳效果,在0.3~0.39为合格,修改会更好,在0.2~0.29为勉强,仍需耍修改,区分度在0.19以下为差,必须淘汰[6]。

对于0,1记分的选择题,利用极端分组法、点二列相关计算各个试题的区分度。

表4 选择题的区分度

对于连续记分的主观性试题填空题、解答题和总分,用极端分组法和相关法计算各个项目的区分度。

表5 填空题、解答题以及试卷的区分度

注:试卷区分度是将各题区分度进行加权平均计算的。

结果显示,对于选择题而言,总体看来,整个选择题中大部分题目的区分度都在0.4以上。通过极端分组法和点二列相关系数计算的区分度在大部分题目中相差不大。极个别题目有明显差异,主要在于两种方法考虑的视角不一致,就第1题而言,极端分组法的区分度指标0.093,是利用高分组和低分组之间差异进行计算的,两者差异很小,说明该题无论是高分组还是低分组都能完成,就区分能力而言属于应该淘汰的题目,但正是由于该题目在高低分组中完成率都较高,和总分的相关性自然就大,因此,点二列相关法计算出来该题的区分度较高。两种方法计算的试卷区分度均在0.6以上,说明该试卷区分能力强,区分效果佳。

三、有关结论

事实上,该次试卷为全市统一考试题目,从一定程度上说属于“较大的标准化”考试题目。从上述分析可知,本次考试成绩的分布直方图并未凸显畸形特征,基本上呈正态分布,单峰,稍微右偏。就四度而言,填空题、解答题的信度很好,但选择题的信度适中。常见的提高测验信度主要有以下方式:一是适当增加试题量;二是提高质量,试题难度要适中,区分度大;三是调整试题编排顺序,尽量做到先易后难。

测验的效度采用学科专家通过逻辑分析法进行分析的,根据测量的目标与内容的双向细分表,了解到试题覆盖了所要测内容的主要方面,考目标清晰明确,题型和分数结构合理恰当,总体符合考试大纲和教学要求。

试题的难度较合理,大部分选择题难度偏低,其中第4、10两题难度最大。而最后一道解答题的难度系数则过大。这和数学试卷利用最后一题作为压轴题有密切关系。

试题的区分度方面反应较好,但选择题第1、2题和解答题最后一道题在两种计算方法中差异很大。可能的原因在于第1、2题属于难度很低的送分题,因此区分度也不高,最后一道压轴题属于难度最大,很多学生放弃作答,因此存在这方面的问题。

四、结语

考试是衡量教学效果的必要手段。随着统计学及经济计量学边缘的不断扩张,对于教学结果的评价越来越依赖于科学的理论和方法。教育评价技术方法中教育测量理论就是应用教育统计学方法实现的,成为测评学生能力、考核教育效果的重要措施。利用SPSS测度考试的难易度、区分度、信度、效度等指标,不仅可以直观、便捷分析考试结果,发现考试中的重要信息和规律,还可以为教学效果评估提供重要的考核指标和模式。目前在教育教学及科研领域,人们采用科学的测评方法测度试卷科学性的尝试并不多,尤其是一些规模较小的考试,这不利于教学质量和教师素质的提高,亦不利于考试学研究者开启新的研究视域。应该加强对试卷科学化测度的研究及实践,使考试这一重要的教学环节日益走上科学化和规范化的轨道。

通过试卷质量分析,不仅可以了解试卷情况,更可以利用试卷科学性测评的方式了解教师的教学效果,同时也可以通过建立试题库、制定命题双向细目表等方式,提高试卷质量。

参考文献:

[1]《国家中长期教育改革和发展规划纲要》关注教育质量监测[N].基础教育质量监测信息简报,教育部基础教育质量监测中心,2010,1.

[2]郭熙汉,何穗,赵东方.教学评价与测量[M].武汉:武汉大学出版社,2008.

[3]杜洪飞.经典测量理论与项目反应理论的比较研究[J].社会心理科学,2006(6):15-17.

[4]Christine DeMars.Item Response Theory[M].London:Oxford University Press,2010.

[5]何穗,吴慧萍.基于教育测量理论的中学数学试卷质量评价研究[J].考试与招生,2012(08):49-53.

[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs,N.J., Prentice-Hall,1965.

有理数测试题范文第3篇

关键词: 大学英语 三级快速阅读题 难度 区分度 正态性分布

1.引言

大学英语试题库测试系统数据分析是大学英语教学和科研工作中的一项重要内容,通过分析试卷的易度值(facility value),或者难度系数(coefficient of difficulty)、区分度(dipartite degree)和正态性检验(test of normality),可以了解出题质量和教学效果。它既可以作为教学评估的手段,其本身又是教学研究的一个重要方面,对提高教学质量具有十分重要的指导意义。

2.研究的依据

所谓题库就是以一定的教育测量理论为依据,按照一定的规范编制,收集的有相当数量和较高质量、附有试题性能参数、并经过分类编码的大批题目的科学集合,其理论基础主要来自于经典测量理论。这种理论经过几十年的实践发展得已相当成熟,应用十分广泛。

在试题库建设中,不进行题目分析,不分析试题的信度、效度,就不能科学地筛选、补充、修订和配置试题。效度的关键就在于试题设计的科学性,即真正按照考试大纲的要求把最典型、最富代表性的内容编入试卷,并做到题量合理,比例适当,内容与形式统一,使试题的难度适合测试者的实际水平。

为了了解题目的信度和效度,我们必须掌握试题的易度值、区分度,并对试题进行正态性检验。

2.1易度值(或难度系数)

所谓易度值,就是指题目的难易程度,或说测试的难易程度,常以试题的平均正确率作为易度值的指标。难度系数与易度值成反比例关系。

易度值P在0至1之间。P>0.8时,试题太易;P0.8、P

(1)客观性试题易度值P(这时也称通过率)计算公式:P=K/N(K为答对该题的人数,N为参加测验的总人数)(2)主观性试题难度P计算公式:P=X/M(X为试题平均得分;M为试题满分)(3)适用于主、客观试题的计算公式:P=(PH+PL)/2(PH、PL分别为试题针对高分组和低分组考生的难度值)。在大群体标准化中,多采用第三个计算公式。具体步骤为:①将考生的总分由高至低排列;②从最高分开始向下取全部试卷的27%作为高分组;③从最低分开始向上取全部试卷的27%作为低分组;④按上面的公式计算。

2.2区分度

所谓区分度是指测验对考生实际水平的区分程度或鉴赏能力。它是题目质量和测验质量的一个重要指标。一般要求试题的区分度在0.3以上。

区分度D在-1至+1之间。D≥0.4时,说明该题目能起到很好的区分作用;D≤0.2时,说明该题目的区分性很差。D值为负数时,说明试题或答案有问题。

(1)客观性试题区分度D的计算公式为D=PH-PL(PH、PL分别为试题高分组和低分组考生的难度值)。(2)主观试题(非选择题)区分度D的计算公式为D=(XH-XL)/N(H-L)(XH表示接受测验的高分段学生的总得分数,XL表示接受测验的低分段学生的总得分数,N表示接受测验的学生总数,H表示该题的最高得分,L表示该题的最低得分)。

整个试卷的区分度,是所有试题区分度的平均值。

2.3成绩分布的正态性检验

计算出来的区分度界于0.30-0.39之间,或高于0.39,就表明同质考生的考试成绩分布符合正态分布。具体指标如下:

3.研究的方法步骤

本次数据分析的样本为某高校大学英语三级快速阅读试题,参加测试的学生人数为1249人,全部在读大学英语三级课程,学习者来自人文社科、经济管理、机械工程、材料工程等多个专业。测试题为客观性试题,全文927个单词,要求学习者在15分钟之内读完,并对于文章相关的十个句子作出正确、错误或信息缺失的判断。本次研究所采用的计算公式为:P=K/N(P为该试题易度值,K为答对该题的人数,N为参加测验的总人数)。D=PH-PL(D为该试题区分度,PH、PL分别为试题高分组和低分组考生的难度值)。经计算后得到的题目错误率、区分度、难度系数统计表如下所示:

从经典教育测量理论来分析,在此次测试的快速阅读试题中,难度系数在0.2到0.4的试题所占比例为10%,接近理想数据。难度系数大于0.8的试题所占比值为10%,这个数据也是符合预期的。但是难度系数小于0.2的试题所占比例为60%,这个比例过大,致使试题整体难度降低。难度系数在0.6到0.8的试题所占比例为零,而在理想命题状态下,此期望数值应为20%。特别是难度系数在0.4到0.6之间的试题所占比例仅为20%,远远低于60%这个期望数据值。全部试题难度系数的平均值仅为0.289,也远低于0.4到0.6这个期望系数区间。数据显示,此次快速阅读试题偏简单,在试题库中应属于大学英语二级到三级之间难度的试题。

从区分度数据分析,此次测试题中区分度大于等于0.4的试题占全部试题的90%,这些试题区分度非常良好,可以在试题库中予以留用。但是有10%的试题区分度如需继续留用,必须予以修改。具体而言,快速阅读试题中的第10小题的题干“President Bush has signed into law an emergency spending plan”就是几乎照搬原文最后一句话:“President Bush has signed into law a 40,000 dollar emergency spending plan.”学习者在不理解文章意思的情况下也可以找到上述信息。从命题角度而言,可以适当增加这个题目的信息承载量,更好地测试学习者对文章的理解程度。

从试题的错误率分析,此次快速阅读测试题中第二小题和第三小题的错误率是最高的。而这两个小题的答案都是“Not Given”,也就是说在文章中找不到题干中的信息,是信息缺失类试题。这类试题往往具备这样的特征:题干中的某些内容在原文中没有提及;或者题干中涉及的范围小于原文的范围,也就是更具体;题干是某人的主观思想(目标、目的、想法、愿望、保证、发誓),而原文陈述的是事实。以第二小题为例,“There were children in the day-care center of the World Trade Center when the terrorist attacks took place.”这正是主观思想,而不是文章陈述的事实内容。因此,信息缺失类快速阅读试题不仅能测试学习者的理解能力,还能测试学习者的逻辑思维能力,应当配置在大学英语试题库当中。

4.结论

我们认为,出拟试题,组建题库只是一个载体。在题库建设过程中,要进行一系列教学改革的研究,并藉此加强教学管理,规范教师的教学行为,提高教学质量。而对大学英语测试系统进行多角度数据分析与研究正是教学改革的一个方面,它能够帮助教师了解教学水平,提高命题质量,从而提高教学水平。可以从以下三点总结此项研究的深刻意义。其一,大学英语试题库测试系统数据分析可以帮助提供每套试题易度值等相关参数,从而了解出题质量。其二,分析得到的数据可以帮助教师了解教学效果,特别是发现教学中的薄弱环节,从而有的放矢地进行教学。其三,分析得到的数据是大学英语教师进行教改、科研不可多得的参考依据。

参考文献:

[1]励景编著.考试命题与试卷分析[M].浙江宁波出版社,2002.

[2]白晓明,陈国明,叶成华等编著.考试命题与试卷分析[M].浙江宁波出版社,2003.

有理数测试题范文第4篇

关键词 SPSS 17.0 试卷 质量 测度

中图分类号:G424 文献标识码:A

0 引言

考试,作为教学过程的重要环节,不仅承担了检验学生知识掌握能力的重任,而且彰显着教师的教学效果和教学能力。以往,对于考试功效的认知呈现着重“考试成绩”轻“试卷质量”的偏误,成绩被统计完毕,试卷即寿终正寝,鲜有对试卷本身进行量化分析的教学实验,这不利于教学质量的提高和教学评估的科学化。随着社会科学研究方法的日益科学化和规范化,考试作为教育学研究的重要内容,理应对其进行科学化测度,这不仅能提高试卷的出题质量,检验学生掌握所学知识的真实水平,还能为考核教师教学能力提供重要的指标。教育评价技术方法中教育测量理论就是应用教育统计学方法来实现的,为测评学生能力、分析试卷质量、考核教育效果提供了可资借鉴的分析方法。

试卷本身的科学性体现在诸多方面,如试卷总体成绩分布、试卷难度、区分度、信度和效度等,以上因素影响着一份试卷的质量。本文以泉州市新村小学某年级学生的89份小学语文考试样卷为样本,借助统计学软件SPSS 17.0来施以量化分析,旨在探寻试卷质量的需改进之处,促进教学能力的不断提高。同时希冀教师在学术科研和教学实践过程中更加注重科学统计方法的应用,挖掘有关考试的有价信息,提高自身的综合素质。

1 研究框架及数据处理

一个完整的试卷科学性测度系统包括试卷、成绩、测度和输出四个模块。其中试卷模块、成绩模块和输出模块的建构基于主观判断,难以量化分析,而测度模块须以计量统计分析为支撑。本研究以SPSS 17.0统计分析软件为工具来测度试卷质量,主要围绕测度系统展开,并辅之以试卷题型及分值构建、考试成绩录入和分析结果输出模块,旨在便于统计分析并为提高试卷科学性指出路径。

考生人数应为90,其中1人因故缺考,有效样本数为89。经过客观公正批改,形成实得成绩。教师在对成绩进行汇总时,应该考量成绩汇总用途,如果仅用于考生学习能力测评之目的,则只需统计各被试学生的卷面总成绩;若有意向借助成绩进行试卷质量测度,则须统计各被试考生各小题的实得分,形成数据表。统计成绩一般采用Excel文件,若借助SPSS 17.0软件进行试卷科学性测度,则可以直接将数据输入数据录入分析系统。亦可首先在Excel文件中将数据录入完毕,然后将其导入SPSS 17.0分析软件。

2 试卷科学性测度

试题科学性的客观标准体现在符合教学大纲要求,难度适当,区分优劣能力较强,覆盖面较大,学生考试成绩呈正态分布等诸方面。纵观已有研究成果,鉴别试卷质量优劣的数字指标有“五度”:信度、难度、区分度、效度、覆盖度,但在实际适用中,经常被采用的是“四度一分布”,即信度、难度、区分度、效度及成绩分布。

2.1 建立成绩分布直方图

在教育测量方法中,正态分布是最常见、应用最广的一种重要分布。根据教育统计学的理论,经统计分析(样本数≥30)93%的考试成绩分布状况在直观上呈现为“中间多,两边少,左右基本对称”的特点。判断成绩是否接近正态分布,最直观、最有效的方法是将成绩分布曲线与均值和方差相同的正态分布曲线加以比较。所以一次难度适中信度可靠的考试,客观有效的学生成绩应接近正态分布,且平均分在75分左右,标准差在5~9之间。

利用SPSS得到分数段分布直方图,如图1所示,这89名学生的成绩分布形态基本对称,较接近正态分布。平均分为69.66分,标准差为8.755分,分析结果基本符合数理统计学原理。

2.2 题目难易度分析

难度(Difficulty)是反映试题难易程度的一个指标,它对考试结果有很大的影响,题目的难度值越大,说明该题越容易,反之该题越难。

一般的试卷主要选择难度在0.5左右的试题,如果是选拔性质的考试,应该主要选择难度较高的试题,如果是达标性质的考试,应该选择难度较低的试题,同时为了测试考生的能力差异,试卷中应该加入少量难度较高的题目。总体上说,试卷的难度应该控制在0.3~0.8之间。但是题目的难度系数不能太接近,这样的题目太同质,会降低总分数的区别力。所以一张试卷的平均难度除控制在0.3~0.8之间外,还应使试题的难度适当分散。

根据本次考试的难度统计结果,Q5、Q7、Q17、Q18、Q27题题目较难,Q20题题目偏难,Q11、Q21、Q25、Q30、Q31、Q32、Q33、Q34、Q35、Q36题题目偏易。由于得分便易的题目集中在主观题上,从某种程度上可以反映学生对主观题的把握能力较强。

2.3 题目区分度分析

区分度(Discrimination)是指测验题目对学业水平不同的学生的区分程度或鉴别能力。具有良好区分度的测验,区分度越高,说明试卷区分考生水平差异的能力越强,反之,区分能力就越差。它是测验是否有效的“指示器”,被作为评价试题质量,筛选试题的主要指标与依据。

本文采用一种比较便捷的测度方法,区分客观题与主观题。对于客观题,采用斯皮尔曼(Spearman)等级相关分析法,即求总分与每个试题得分间的相关系数;对于主观题来说,看成是非等间距测度的连续变量,并且样本数大于30,采用皮尔逊(Pearson)相关分析法,即求总分与每个试题得分间的积差相关系数作为试题的区分度。

根据试卷各题的区分度,第4、7、11、12、14、15、18、20、23、25、26、33小题的区分度不够,应被淘汰或作进一步的修改。

2.4 信度分析

信度(Reliability)是指测量方法的质量,即对同一现象进行重复观察是否可以得到相同的资料。具体到试卷信度,是指同一个测验对同一组被试对象,施测两次或两次以上得分的一致程度。信度的高低反映了考试中随机因素影响的大小,一次测试中随机因素影响小,则信度大,随机因素影响大,则信度小。信度也可以用来指示实测值和真值相差的程度,如果实测值与真值相差较小,说明结果的信度较高,反之信度较低,信度值的合理范围为0.5~0.9。在SPSS17.0软件中一般采用科隆巴赫(Cronbach)%Z系数计算测验的内部一致性系数。

本次考试的信度系数为:Alpha=0.576,本次测试的信度较低。

2.5 效度分析

效度(Validity)是指测量准确地反映所需测量概念的程度。表现在考试试卷测度上,是指试卷准确地测量了考试目的欲测内容的多少。具体而言就是覆盖面和权重在多大程度上体现了教学大纲的要求,能否有效检验考试能力水平。效度与信度的区别是:信度反映了考试中随机误差的大小,而效度反映了考试中系统误差的大小。缺乏信度和效度的测量都是不科学的。

效度只有高低之分,没有全部有效和全部无效之分。效度的取值范围在0至1之间。对于一次考试来说,其效度系数一般应在0.4~0.7之间,值越大效度越高。本文采用标准关联效度法(predictive validity),把学生的平时成绩作为效度分析的标准,利用积差相关法求效度。根据计算结果,本次考试的试卷效度为0.593。

3 测度结果及调试路径

3.1 测度结果

根据教育测量理论,本次小学语文考试成绩的分布直方图并未凸显出畸形特征,基本上呈正态分布,单峰且大体对称。通过对题目难易度的计量分析可以看出,只有1题偏难,却有10题偏易,这不利于区分被试者的知识掌握能力的高低。从本次考试成绩的区分度可以看出,共有12道题目的区分度低于0.2,这不利于检验学生真实水平的差异性,需要改进出题质量,提高区分度。本次考试成绩的信度虽然在合理值范围内,但是值接近合理区间的底限,说明试卷测试的题目的一致性程度较低,需要进一步调适试题,提高信度。本次考试的效度居中,考试测量目的预测内容的程度一般。

3.2 调适路径

根据测度结果进行试卷调适,是试卷科学性测度的重要目的之一,是提高教学质量的重要环节,应引起广大教育工作者的充分重视。考试成绩是考生水平的反映,同时考试成绩分布是否呈正态反映了命题质量。此考试成绩呈正态分布曲线,此次说明考试基本上符合教学要求。在考试题目设计上要求对试题的难度组合进行合理的搭配,这样有利于考试成绩的正态分布。本次试卷的偏易题过多,偏难题过少,在调适试卷的时候应注意适当增加偏难题的数量并减少偏易题的数量,这也有利于提高试卷的区分度。本次考试的信度系数较低,提高测量信度一个常用的方法是在提高试题区分度的前提下,适当增加试题数量。另外从信度系数的计算公式上看,增加考试总分的方差,减少各小题的方差,可以增加信度。从操作的角度看,扩大样本容量,题目难度值的差距不悬殊且在0.4~0.7之间,提高试题区分度,以及制定尽可能客观的评分标准和方法等均有利于提高考试信度。就效度而言,因作为效度测量标准的的变量有很多,而一个测验又可能会有不同的标准,因此必须注意标准的选择,它是获得测验的标准关联效度的核心。

有理数测试题范文第5篇

【关键词】中学化学试卷;质量分析;难度;区分度;信度;效度

中学化学试卷的质量分析是中学化学教学评价的重要内容,高质量的中学化学试卷分析对提高中学化学教学质量和提高化学试题的命题质量具有特别重要的意义。同时,也是教育主管部门、教育研究部门获取教育教学质量信息、提出改进教学建议的重要途径。

一、中学化学试卷的质量分析存在误区

据笔者调查了解,目前教师、学校,甚至市、县教育研究部门的学科测验质量分析,仅仅是对学生考试成绩的情况分析,也就是考试结果分析。这对于了解学生学习情况,鉴别学生学业成绩、为改进教学、提高教学质量提供反馈信息是非常重要的。但这种分析是建立在学科测验(试卷)本身是没有任何质量问题的测量工具基础之上的,严格讲这只能称为被试的质量分析,而不能称为试卷的质量分析。特别是使用没有经过标准化的教师自编学科测验时,在没有对试卷这一测量工具的质量进行有效的分析评价之前,对测试结果的分析是没有意义的。

学科测验质量分析的方法包括定性分析和定量分析。从认识论角度讲,人们对事物、现象的认识首先获得一定的质的认识,然后在此基础上进一步去考察量,以求对事物的质有更清晰、更准确的把握,这就是认识的深化与精细化。也就是说,定量分析的目的是为了精确地、深入地对事物、现象的质的认识,这就要求必须正确理解、评价、解释、运用在定量分析中所使用的各种统计指标。但据笔者调查了解,在目前的对非标准化学科测验的质量分析中,定性分析较多,定量分析较少。定性分析往往缺乏足够的依据,而在一些简单的定量分析之后,相关指标的评价标准界定不明确,相关指标的解释、理解不全面,指标的运用不充分。

二、对试卷的基本情况的分析

这项工作主要是分析试题范围及知识点,试题性质、题型及数量以及有关命题依据等方面的内容。

1试题范围及知识点

是否是在化学教材及课程标准要求的范围内,覆盖面如何。试题内容是否源于课本,并根据学生生活背景知识适当拓宽加深,有无难题、偏题、怪题及超过课标要求的拔高。试题跨度是否注意到适当增加学科内或者学科间知识的交叉渗透,体现综合性特征。试题是否科学合理、比例是否恰当。文字、图像、图表、数据等信息资源是否准确。试题陈述是否科学准确、表达是否清晰,备选答案是否明确。试题之间是否具备独立性,即相互间有无提示现象。试题是否注意到与社会实际和学生生活实际的联系,注重对学生能力的考查。

2试题性质、题型及数量

试题按性质分为客观性试题和主观性试题。那么试卷中客观性试题和主观性试题各为多少道,分别为多少分。在目前,试题按题型(除高三模拟题外)一般分为选择题(单选或多选)、填空题、简答题、实验探究与设计题、计算题等种类。试题数量指选择题的备选答案数、填空题空格数、实验探究与设计和计算题得分点数、回答要点数,以及教材、课程标准和考试要点要求的知识涉及程度、知识点覆盖面(%)。

3命题依据

是否依据教材及课程标准;是否对基础知识、主干知识和基本能力的测试;是否关注探究过程和方法、联系实际选取素材,这对“教”和“学”具有导向作用。

三、试卷的统计数据

中学化学试卷的统计数据,可以按题型与按每道小题,进行全样本分析或抽样分析(随机抽样分析,样本容量适中)除了要统计最高分、最低分、平均分、优良率、及格率、错误率、得分率外,更主要的是要做好学生典型错误或创新解答统计及原因分析。在此只谈一下选择题的试题作答率的统计分析。

试题作答率是以全体受试学生中,每一个选项的作答人数占总人数的百分比值。每一选项的作答率,可以作为筛选或进一步修改不恰当的试题、以及分析学生作答情形之用,藉以了解学生是否有一些错误或迷失概念。

选择题的结构是由两部分组成:包括题干与选项,题干就是问题本身;选项包括一个正确选项(最佳答案)和三个诱答选项。正确选项必须要能吸引较多具备该评量能力的受试者去选择;而诱答选项则应具似真实性或合理性,会吸引较多不具备该评量能力者或是概念不正确者去选择。选项的设计与选择题题目的难易程度有密切关系。如某一试题有4个选项,正确选项A作答率为0.89,选项B作答率为0.11,显示该选项具有诱答力,有约11%的学生有此错误概念;选项C及选项D作答率为0,显示该选项不具有诱答力,或受试者没有此错误概念,可考虑修改此选项。

四、测试题目的质量分析

任何测验都是由若干测验题目构成的。非标准化测验的质量分析,首先应该是对组成测验的各个测验题目进行质量分析,只有保证了构成测验的所有试题的质量达到规定的标准,才能保证一个测验的整体质量。测验题目质量分析的目的,首先是为了鉴定测验题目,并为进一步修改测验试题提供有效的依据,前述的选择题作答率统计就属于此;其次,有助于提高老师编制测验的技能和技巧,有助于建立测验题库;当然,最为重要的还是为了保证一个测验的信度和效度。测验题目的质量分析主要包括题目的难度分析和区分度分析。

(一)、难度分析

难度又称难易度、难度系数(P)是试题对学生知识和能力水平的适合程度的指标,是一个相对概念,难度的高低与被试者的水平直接相关。难度的取值范围为0≤P≤1,P值愈大,表示该试题愈容易,愈多数学生答对该试题;P值愈小,表示该试题愈困难,愈少数学生答对该试题。

1难度的计算

对于二分法记分的客观试题,通常以答对或通过该题目人数的百分比来表示难度:P=R/N(P:题目难度;N:全体被试人数;R:答对或通过该题目的人数)。

当被试人数较多时,可采用极端分组法,即先将被试按测验总分从高到低排列,取总分最高的27%被试为高分组,总分最低的27%被试为低分组,分别计算高分组和低分组的通过率,然后再求题目的难度:P=(PH+PL)/N(PH、PL分别表示高分组和低分组的通过率)。

主观题的难度一般用参加测试考生在该题的平均得分与该题分值之比,即P=X/K(X表示所有考生在该题的平均得分,K表示该得分值)。

试卷的平均难度:P=∑Pi/N(Pi代表每道题的难度值,N代表试卷的题目总数)。也可用P=∑PiWi/W表示(Pi代表每道题目的难度值,Wi代表每道题目的分值,W代表试卷的总分值)。还可以用P=X/W表示(X为总平均分,W代表试卷的总分值,P代表试卷的平均难度)。

当被试人数较多时,也可采用极端分组法计算难度:P=(XH+XL-2NL)/2N(H-L)(XH、XL分别为高分组、低分组的总分;H、L分别为最高分、最低分;N为总人数的25%)。

2难度分析

难度分析的主要目的是为了鉴定、筛选和修改题目。题目的难度水平通常取决于测验的目的、题目的形式以及测验的性质。一般情况下,测验的平均难度要适中,应在0.50左右;如果测验是为了了解被试在某方面知识、技能的掌握情况,可以不必过多地考虑试题的难度。

难度对于测验的影响,首先表现在测验分数的分布形态上。若测验题目的难度普遍较大,则分数呈正偏态分布;若测验题目难度普遍较小,则分数呈负偏态分布;只有当测验题目的难度适中时,分数分布才呈近似正态分布。其次表现在测验分数的离散程度上。太难或太易的测验题目,都会导致测验分数相对地集中在低分端或高分端,离散程度较小;当难度适中时,分数分布范围大,离散程度较大。这是用标准差σ来表示的,因篇幅关系,在此不加赘述。

只有当分数的分布范围较大时,测验的信度才可能较高,反之信度较低。可见,测验题目的难度以集中在0.50左右为最佳,以集中在两极端为最差。在非标准化学科测验中,组成测验的各试题的难度系数应当以0.50为均值(各个试题难度均匀分布在0.2~0.8之间为好),这样有利于最大程度区分不同程度学生,使试题产生区分学生的最大效果,分数将呈正态分布,但允许有少量的高难度和低难度的测验题目。

(二)、区分度分析

试题区分度又称区分度指数(D),是衡量试题对不同知识和能力水平考生的鉴别程度的指标。具有良好区分度的测验,实际水平高的该得高分,实际水平低的该得低分,它是评价试题质量、筛选试题的主要指标和依据。

1区分度计算

鉴别指数法。对于二分法记分的客观性试题,从总分分布的两端各选择27%的被试组成高分组和低分组,分别计算高分组和低分组的通过率,二者之差就是鉴别指数:D=PH-PL。

主观题的区分度,一般从总分分布的两端各选择27%的被试组成高分组和低分组,分别计算各组总分和测验最高分、最低分。再按下面公式计算:D=(XH-XL)/N(H-L)(公式中各符号含义与难度计算时相同)。

其它复杂的计算,在此从略。

2区分度分析

如果一个题目的测试结果使水平高的考生答对(得高分),而水平低的考生答错(得低分),它的区分就很强。鉴别指数是鉴别题目测量有效性的指标,鉴别指数越高,题目越有效。一般认为,鉴别指数在0.40以上的为很好;鉴别指数在0.30~0.39的为良好,修改会更好;鉴别指数在0.20~0.29的为尚可,仍需修改;鉴别指数在0.19以下的为差,必须淘汰。

任何一种测验,其所有的测验题目,都应该具有良好以上的区分度。否则,将无法保证测验的有效性。

五、测验的质量分析

当由若干质量达到要求的测试题目构成一个测验时,还必须对整个测验的可靠性和有效性进行技术鉴定,这就是通常所说的试卷分析。试卷分析最根本的含义是指对试卷的质量进行系统的分析,目的是评价作为鉴别学业成绩的测量工具的质量。对于标准化测验来说,有一整套完整而成熟的质量技术分析指标。非标准化测验在测验结束后,也可以通过抽样的方法,借助这些指标来进行试卷的质量分析,也就是要明确一个测验的信度和效度。

(一)信度分析

信度是指测验结果的稳定性、一致性和可靠性的指标。信度是测量过程中随机误差大小的反映,如果信度低,则随机误差大,测验的结果就会与真分数发生较大的偏差。一个成功的测验必须具有较高的信度,也就是说,只要遵守操作规则,测验的结果就不应该随工具的使用者或使用时间、地点等因素的变化而发生较大变化。

测验信度的种类较多。如反映测验稳定性的重测信度、检验等值性的复本信度以及描述内部一致性的分半信度、同质性信度等。在非标准化学科测验的信度分析中,最适合使用的应该是分半信度。

分半信度是将一个测验分成对等的两半,然后分析同一组被试在两个半份的一致性程度。计算分半信度的关键在于如何将一个测验分成两半,常用的分半方法有完全随机分半、奇偶题目序号分半等。计算分半信度的方法,就是求被试在两个半份测验上得分的相关系数,当然,由于只是半个测验的信度,所以必须进行校正。校正公式为r=2r0/(1+r0)(r为信度,r0为两个半卷上分数的相关系数)。

测验信度通常用来解释个人测验分数的意义,也可用来进行两种测验分数的比较分析。测验信度高,说明测验结果比较一致,测量工具具有稳定性、一致性和等值性,被试的能力水平受被试状态和施测环境变化的影响较小;若信度低,则说明测验的随机误差较大,测验结果不可靠。鉴别信度系数的高低,需要对计算的各种相关系数进行显著性检验。

要提高测验的信度,可适当增加测验的长度,并使测验中所有试题的难度系数接近正态分布,并控制在中等水平;必须保证测验题目具有较高的区分度,并尽量使用同质的测验内容题目;另外,还必须强调测验评分的客观性,并提高测验程序的统一性。

(二)效度分析

效度指一个测验实际测量的结果与所要测量的能力水平之间的吻合程度,是测验的有效性或正确性的指标。效度是随机误差和系统误差的综合反映,效度的估计就是多方寻找证据来证明一个测验有效性程度的过程。由于效度是就测量结果达到测量目的的程度而言的,所以测验的效度估计在很大程度是取决于人们对测量目的的解释。常见的解释有三种:一是用测量的内容来说明目的;二是用心理学上某种理论结构来说明目的;三是用实际实效来说明目的。于是,就有内容效度、结构效度和实证效度之分。

在非标准化学科测验的效度分析中,最适合使用的是内容效度。

内容效度指一个测验实际测到的内容与所要测的内容之间的吻合程度,也即试卷内容对于所要考查的课程内容的代表性如何。估计内容效度的核心问题,一是要测的内容范围是否明确,二是在明确的内容范围内题目的取样是否具有代表性。

确定内容效度的方法主要是逻辑分析法。其工作思路是请有关专家对测试题目与原定内容范围的吻合程度作出判断分析,所以又称专家判断法。这需要依据在编制测验时制作的“化学学科双向细目表”。

要提高测验的效度,首先,要精心编制测验试题,避免出现系统误差;其次,要妥善组织测验,控制好随机误差;第三,要合理处理好信度与效度的关系,信度不高的测验不可能具有很高的测验效度。

另外,还要做好被试团体的质量分析和被试个体的质量分析,因篇幅关系,在此从略。