首页 > 文章中心 > 人类学概念

人类学概念

人类学概念

人类学概念范文第1篇

关键词:类概念、层级类概念

概念是认知科学的重要研究内容。它是解释我们意识中心智的术语,也是对反映人的知识和经验的信息结构进行解释的术语。概念不仅可以储存关于世界的信息,还可以充当概念系统的建构成分。它通过将信息归结到一个经过社会提炼的特定的范畴或类型中来促进主观经验的处理和加工。

对概念进行描写最好的接口是语言(Jackendoff,1993:16)。有学者认为,最简单的概念应该通过词来表征,有的则认为,简单的概念应该是在词汇成分分析中表现出来的语义特征或者标记。但最为重要的概念在语言中得到编码是个不争的事实。

在人类学和生物分类学研究中,通常用到界、门、纲、目、科、属、种等层级水平的分类。而认知心理学,则按照类别的抽象水平,将类别系统地区分为三个水平(Conceptual Hierarchies,又称类概念层级或层级类概念),即下位水平类概念(简称下位类概念)、基本水平类概念(简称基位类概念)、上位水平类概念(简称上位类概念)。早期的一些研究者(Margolis,1994)及层级分类的相关研究往往将概念和类别等同起来,统称为类概念(class concept)。基于这种由类概念构成的层级网络结构,人们不断地对事物进行着日常的分类、推理、问题解决、决策等高级认知活动。弄清个体对类概念层级关系的加工机制,对于进一步探讨各种高级认知活动的加工机制有十分重要的意义。

Rosch认为,基本水平类概念应满足两个条件:一,类别内的成员有较大相似性;二,类别间的样例有较大的差异性。将同一物体放在不同的类概念层级上进行描述,可以获得不同的意义。可见,当我们在不同类概念层级加工同一具体事物时,我们头脑中的信息在发生着不断地变化,与此同时,加工的正确性和速度以及大脑中相应的神经电活动和血氧激活情况可能都在随之变化。这种类型的研究有助于人类认识自己的内部世界,尤其认识到我们的大脑活动的规律。

已有研究从儿童发展心理学、神经心理学、认知心理学等角度突出了类概念在生活和心理学研究中的重要性。在儿童发展和语言进化与使用中,基本水平类概念起着重要作用。在神经心理学领域,类概念层级划分对解释语义失语症及聋哑人语言获得过程中基本水平概念的特殊地位有重要意义。

已有研究主要采用熟悉新颖性偏好范式、图画-词汇干扰实验范式(PWI)、启动范式、掩蔽范式、基于类别的推理任务、快速序列视觉呈现范式(RSVP)等。

不同层级的类概念间的差异,目前的研究结果并不一致。主要有一,基本水平类概念的优先加工,儿童最先形成基位类概念,且分类时更快;基位类概念在语言中也更具活力。二,在某些特定的任务和文化背景下,下位类概念也显得尤为重要,如典型性效应和专家效应等。针对这个问题,有研究者认为,进入水平类概念表征是层级类概念加工的切入点。三,上位水平类概念在某些任务中可能也存在一定的加工优势。上位水平类概念的学习并不比基本水平类概念晚,甚至可能早于基本水平类概念的学习。与类概念层级相关的脑电研究(ERP/EEG)表明,上位类概念的获得和加工可能比基位类概念更早。

理论模型有层次网络模型与激活扩散模型,联结主义模型与平行分布式加工。

类概念层级加工神经机制进展的研究主要有一,来自类别特异性损伤的证据。二,不同类概念信息的加工和储存对应不同的脑区(fMRI研究)。三,不同类概念层级的神经机制研究(EEG、ERP研究)上存在差异。

大量的研究表明,儿童最先掌握基本类概念,幼儿、甚至婴儿已能对基本水平的种类进行标准一致的分类,不同的研究结论不一。传统的概念发展研究以及Rosch等人的实验表明幼儿对上级类概念的分类能力尚较差,我国学者的研究得到类似的结果。一般说来,幼儿虽能对一类事物的共同特征进行概括,但概括的水平不高。抽象逻辑思维的形成就是从掌握概念开始的。抽象逻辑思维形成的关键期认为在5-6岁。这个阶段的儿童出现依靠概念、判断和推理等形式的思维,学会通过分析、综合、比较、抽象、概括来掌握各种概念和概念系统,而且要力求精确地掌握概念的内涵,把它和类似的概念区别开来。在中、高年级,儿童才逐步学会分出概念中主要的和非主要的东西、本质的和非本质的东西,学会掌握初步的科学定义,学会独立进行逻辑论证。小学儿童不但能掌握各种概念,而且能运用这些概念进行判断推理。国内外的有关研究都证明:小学阶段的儿童,已学会各种间接的比较复杂的推理,如类比推理、演绎推理和归纳推理等。初中生已有可能初步理解矛盾对立统一辩证思维规律,而高中生则基本上能掌握辩证思维规律,抽象逻辑思维逐步占优势。这表现在:①能通过假设演绎进行思维,即能摆脱具体事物的限制;②思维中有预计性;③思维形式化,即无意或有意地运用逻辑规律来解决问题;④思维活动中自我意识或自我监控,即不但能考虑如何解决问题,还能考虑自己的思维方法、过程;⑤思维的独创性在增长。这种理论型的抽象逻辑思维的发展,必然导致辩证逻辑思维的发展。为辩证逻辑思维的形成和发展创造了良好的条件。青少年期是儿童身心发展逐步趋于成熟的时期,到了青年初期,思维能力基本上接近于成人的水平。

类概念层级的相关研究,对语言获得有重要指导意义。对类概念层级间优势影响因素的探讨,可以促使成人有目的地引导学生获得不同层级水平的类概念。

参考文献

[1]陈安涛,王乃弋,李红,刘强,冯廷勇.(2006).类别归纳的时间过程和源定位一事件相关电位研究提供的电生理证据.以-理学掘38,815―823.

[2]李富洪,李红,陈安涛,冯廷勇,高雪梅,张仲明等.(2005).物体颜色与质地相似度对幼儿归纳推理的影响.心理学报.37,199-209.

人类学概念范文第2篇

关键词 具身认知 初中生物 概念生成 生物学教学

中图分类号 G633.91 文献标志码 B

《义务教育生物学课程标准(2011年版)》在继续倡导探究性学习、面向全体学生提高生物科学素养的理念之下,很大的一个变化是建议关注重要概念的学习。作为生物学科知识体系构建的核心基架――生物学概念的学习一直是教师教学关注的重点,但同时也是现行的初中生物课堂教学中的难点。究其原因:主要在于教师在概念教学中多从概念到概念,更多地使用语词符号对新概念进行界定,脱离学生的生活经验。这与初中学生身心处于初步发育的程度、思维时经验主导化、认识事物和考虑问题时还需要具体的感性经验来支持等特征是极不吻合的。

1 具身认知理论

当前认知心理学研究的新取向――具身认知理论认为:认知活动不仅离不开生物大脑,而且与人类身体及其所处环境的互动密切相关。大脑嵌入身体,身体嵌入环境,构成了一体的认知系统。人以体认的方式认识世界,概念与思维的实现必须通过人的身体经验,而不是依靠超验、抽象的符号。认知具有具身性、情境性和动力生成性三个主要特征。

美国教育心理学家奥苏贝尔提出:学生获得概念有两种形式,一种是以感觉、知觉和表象为基础,通过分析综合、抽象概括等思维活动,从个别到一般,从具体到抽象,逐步把握一类事物的本质的概念生成方式;另一种是以定义形式直接向学习者揭示新概念的共同关键特征,学习者利用原有认知结构中的适当观念,理解新概念,并纳入原有的认知结构,从而获得新概念意义的概念同化方式。当前学生概念学习多使用的是教师直接给予概念界定的概念同化方式,因与学生的生活经验脱离并高度语词符号化而不利于学生理解,并进而妨碍学生的概念运用。

纵观现在的课堂教学,凡概念学习深入浅出,由表及里,学生学习得心应手的,莫不是与生活密切相关,充分调动学生经验进行的教学。笔者根据对具身认知等理论的理解和学生的学习需要等情况考虑,认为在基于观察、基于实验、基于探究、基于隐喻、基于类比等前提下帮助学生概念生成,会有很好的学习效果。

2 概念生成策略

2.1 基于观察的概念生成

学生在日常生活中无意观察获得的经验是进行相关概念学习的起点:如食材中各类绿色的蔬菜是学生学习光合作用的起点;饭桌上的各种鱼类是学习鱼的结构和特征的起点;鸡、鸭、鹅、鸽是学习鸟类的起点;吃剩的猪骨头和鸡骨头的观察也为学习和理解鸟类特征积累了原材料。

对于需要通过观察而进行的概念学习,如细胞的结构,需要学生在广泛观察植物细胞和动物细胞的基础上进行归纳和总结,形成细胞有细胞膜、细胞质和细胞核等主要结构的概念;池塘、草地等生态系统成分观察有助于学生归纳总结出生态系统的成分;人体各系统结构的模型观察有助于学生了解自身结构和各结构的功能;单细胞生物的观察使学生发现微观世界的奥秘;花的结构的观察帮助学生阐释植物的生命语言等。学生无意观察不能拥有的体验需要教师在课堂教学中尽可能地提供观察的方便,这对于学生掌握相关概念具有语言所不可替代的帮助和促进作用。人们自己也无法想象,一个盲人怎样才能获得有关单细胞生物等微观世界和花的完整科学的概念。

2.2 基于情境的概念生成

自情境教学提出后,很多教师上课必用情境。然情境之于教学的作用好像也仅剩了吸引学生关注这一条,有的情境甚至不关注学生的身心接受度,有哗众取宠之嫌。具身认知理论认为情境是学生具身认知的大环境,身体与情境相互作用进而引发促进认知的巨大动力。如:生物对环境的适应的教学,如果让学生都置身于学校里的绿地中,要求学生寻找一个绿色的手球,同时要求学生寻找一个红色的手球,然后观察草地上的昆虫都有哪些颜色,为什么?这两个活动必然会引起学生带着思维去体验生物对环境的适应,同时也教会了学生用活动带来的体验去思考以后生活中遇到的类似问题,其对认知的动力作用显而易见。

2.3 基于探究实验的概念生成

对于学生没有认知经历和经验的领域,在学习过程中,教师需要创造条件生成经验。如光合作用和呼吸作用的概念学习,学生在此之前没有相关生活经验,在亲自对光合作用的产物、场所和条件进行探究后,学生自己总结光合作用的概念也就是水到渠成的事情了;同理,呼吸作用的概念、蚯蚓适应土壤生活的特征、种子萌发的条件等也是都需要学生通过探究实验获得相关概念的感性认识,再经分析、推理、判断形成相关概念。

2.4 基于模拟探究的概念生成

有些概念的探究实验不适合用活体生物进行,但不经探究学生又难以获得相关的直接体验,对概念的生成不利。这时就需要进行模拟探究。比如,鸟类适应飞行生活的特征这一概念的学习,学生无法通过鸟类的外观观察生成全部鸟类特征这一概念。但是在现行的中学阶段不提倡解剖,而且即使通过解剖,学生也不能理解有些内容:流线型体型为什么就适合飞行?骨骼中空为什么适合飞行?这种情况下,有很多教师尝试着带领学生首先进行纸飞机飞行的探究实验:分组尝试流线型纸飞机、竖翼型纸飞机、重型纸飞机、不同动力下纸飞机的飞行状态,得出飞机飞行需要解决的阻力、自重和动力三大因素;然后,再分析鸟类在这三方面分别都有哪些具体的适应特征。这样的教学基于模拟探究得出的结论,在后续的学生中学生会带着问题去观察和思考鸟类在这三方面是怎么与原理挈合的,并且与同学和老师有很好的交流共享。绝好的体验性在很大程度上会促进了学生概念的自我生成。

但也有教师在模拟探究步骤不清楚探究的目的何在,分M不具体,在整个模拟探究阶段,学生盲目地在玩纸飞机。漫天的纸飞机与师生的学习目的一样无目标地在飞,最后纸飞机飞行的原理是教师给出的。这样的模拟探究纯粹是形式,没有倒也作罢。

2.5 基于隐喻的概念生成

在一些概念的生成过程中,教师没有条件带领学生获得相关的体验,比如光合作用和呼吸作用关系的概念、血液循环的概念教学。学生由于不能亲历进而获得体验。教师可以借助于学生熟悉而具体的经验通过隐喻的手法,将具体概念的图式结构转移运用,通过抽象概念与具体概念相同的逻辑结构,从而促进概念的生成和灵活理解运用。比如,光合作用与呼吸作用的关系在初中和高中都是学生学习的重点,同时也是难点。如果借助于学生小学生耳熟能详的水池进水和放水的图式结构则更有利于学生生成此概念:植物白天M行光合作用就类似水池白天打开进水龙头进水,而呼吸作用是植物全天进行的,就类似水池全天打开放水龙头放水;水池里水的多少取决于白天进水和全天放水之差,植物有机物的积累也是这样,取决于白天光合作用合成与全天呼吸作用消耗有机物之差。这样的隐喻使得学生虽不能亲历光合作用与呼吸作用,但通过水池进水和放水的具体概念引起的概念加工会对学生新的抽象概念的生成有促进作用。同理,血液循环的概念教学也有类似的隐喻载体:学生从A地拿篮球,跑回家后带篮球到B地换足球,再把足球带回家,带足球到A地换篮球。如此不断进行的换球活动与血液循环的逻辑结构类似,学生在血液循环的概念生成上就补上了由于体验的缺乏而导致的理解困难了。

隐喻促进概念生成的主要关键在于隐喻的本体与喻体之间有相同或相似的逻辑结构,而且喻体又是学生亲身经历过的、熟悉的事或物。很多教师不仅仅在概念的学习方面,在教学过程中遇到学生理解困难的问题上都习惯打比方,与此处的作用有相似之处。

2.6 基于类比的概念生成

有些概念的教学中涉及人体本身的功能,学生是不能通过亲自体验来感知的。这时模拟实验就是一种很好的代替体验方法。比如:皮肤对人体的天然保护作用,学生不能直接感知,也不能够进行即时实验,教材中用苹果来做模拟实验:将果皮完好的、果皮完好涂上腐烂物的、划破果皮涂上腐烂物的、划破果皮涂上腐烂物并用酒精涂抹伤口的四组苹果放置相同天数后取出观察,与人体皮肤完好的、皮肤完好沾染病菌的、皮肤有伤口后沾染病菌的、皮肤有伤口沾染病菌后用酒精消毒的四种情况作类比。因为苹果的模拟实验结果与人在生活中对应的皮肤相应情况下的变化类似,从而得出结论:皮肤与苹果的果皮一样对人体有天然的保护作用。

在此部分的教学中,很多教师在教学中把握不清楚教材编写时“用实验的四种情况类比人类生活中皮肤的四种情况,从而引导学生得出皮肤保护作用的结论”本意,忽视对生活中皮肤情况的对应分析,因而仅从苹果的实验得出皮肤功能的有关结论就显得很突兀。因为学生不是苹果,不能从苹果的实验体验到皮肤的功能,需要进行类比才能促进概念的生成。

2.7 基于概念图的概念生成

概念图是以图解的方式表示概念相互之间关系的,从显性的具身性来说好像不明显,但从信息的储存和加工来说,却是有一定的关联。学生概念学习过程中必然存在着信息的储存过程,如果信息的储存是无序的、非组织性的,在信息的提取过程中也将导致无序和无奈。概念图是一种帮助学生有组织储存信息的很好的思维载体。在概念图的构建过程中,学生体验的是一种思维的加工和组织过程,这样的经验对学生知识体系的构建很有帮助。

江苏科技出版社出版的《生物学》教材在每一章节的“本章学到了什么”环节都有概念图对本章知识进行了梳理。但不少教师在教学中对概念图的运用仅限于评价环节,这还远远不够,在学生概念体系的生成方面确实可以加以充分利用。

3 概念生成需关注的问题

人类学概念范文第3篇

[关键词]领域本体 本体学习 文本 概念 关系

[分类号]TP182

本体的本质是概念模型,通过概念模型对信息作完全的形式化描述。它描述某个领域甚至更广范围内的概念及概念之间的关系,使得这些概念和关系在共享的范围内具有大家认可的、明确的、唯一的定义,这样,人机之间以及机器之间就可以进行交流。领域本体用于描述特定专业领域,定义该领域的概念和概念之间的关系,描述该领域的基本原理、主要实体和主要活动,提供领域内部知识共享和知识重用的公共理解基础。

近年来,随着语义网运动的发展,作为基础性工作的一部分,实现自动或半自动构建本体逐渐成为一个研究热点,而用来实现本体元素自动获取的一系列方法和技术称为本体学习。

按照数据源的结构化程度,本体学习技术分为三大类:基于结构化数据的本体学习技术、基于半结构化数据的本体学习技术和基于非结构化数据的本体学习技术。数据库中的数据是典型的结构化数据,而XML、HTML、DTD等包含隐含结构的数据称为半结构化数据。非结构化数据是指没有固定结构的数据。文本数据是非结构化数据,大量存在于Web中,是用来构建本体的最重要的数据源。因为现有的研究方法在处理半结构化数据时,通常按照纯文本对待,所以一般将基于非结构化数据的本体学习和基于半结构化数据的本体学习统称为面向文本的本体学习。

本文将概念、概念间关系视为本体的构成要素,对比分析相关的面向文本的本体学习的一系列方法和技术,并结合实例阐明领域本体学习的步骤与方法,进而讨论当前领域本体学习技术存在的主要问题和进一步的研究方向,为构建领域本体理清思路。

1 面向文本的领域本体学习

根据本体的定义和结构,本体学习的任务可分为三部分:①概念的自动获取;②概念间关系的自动获取;③公理的自动获取。现有研究主要集中于概念和关系的获取,公理的获取研究较少,所以本文着重讨论前两者。

首先,自然语言处理技术(nature language process-ing,NLP)是面向文本的本体学习的基础,这是因为文本数据缺乏一定的结构,要使机器能够自动地理解文本并从中抽取出所需要的知识,则必须利用自然语言处理技术,如词性标注、词义消歧和短语切分等技术对其预处理;然后,在此基础上,利用基于统计、基于规则或机器学习等方法从中获取知识。

1.1概念获取方法

领域概念是领域知识在文本中的外在表现,是在特定领域内具有语义的词或短语的集合。领域概念的获取就是从领域文本集合中抽取最能够代表该领域概念的概念集合,这个过程包括从领域文本中抽取术语集合、词性规范以及领域概念的筛选和确定。

1.1.1基于词典的方法 专业词典和叙词表等经过领域专家多年的有序组织,涵盖了学科领域内的表达事物相关概念的大量词汇。同理,也可以利用停用词表识别无用的常用词。以此为依据,从文本中抽取领域概念或过滤无用词汇,准确高效、简单易行,国内外有很多成功的实践,但叙词表和词典的维护及更新比较缓慢,词汇覆盖面有限,所以经常作为一种基础性方法获取基本概念,需要进一步结合其它方法进行扩充。

1.1.2规则方法 基于规则的方法是指利用人工总结的语法规则、词法规则、语义规则等获取概念。例如,可以使用标注工具对文本进行词性标注,按照词语的形态特征从语料中提取术语。该方法实现比较简单,如果制定的规则完备、合理,则能达到一个比较高的准确率。但是,规则的编写需要具有语言知识和语言学背景的人员,人力资源昂贵,并且规则的制订往往要依赖于具体的语言、领域和文本格式,系统缺乏适应性,不易移植。

1.1.3统计方法 基于统计的方法是近年来常用的方法之一,它利用一些简单的统计量来衡量几个连续字符组成词的可能性。常见的简单统计量有词频、互信息、熵和C-value等。通过计算领域相关度和领域一致度等方法,对候选术语集进行过滤,获取真正的领域概念。基于统计的方法的缺点是容易产生数据稀疏现象,一般适合于输入数据不再改变的系统,即非增加的本体学习系统。

1.1.4机器学习的方法 机器学习的方法需要首先建立一个学习模型以模拟一个特定的任务,然后在已标注的训练集上应用学习算法,在得到一个推广性能最好的学习模型之后,即可从文本中抽取概念。

基于机器学习的方法是目前一种较为有效的概念获取方法,不再依赖于领域专家,只需要有一定专业知识的人对语料进行人工标注,而且能够将概念获取问题转换成丰富的机器学习算法所能解决的问题,但是机器学习的方法会产生噪音数据,影响结果可信度。

1.2概念关系获取方法

不同的组织和研究机构,给出了不同的语义关系类型。联机英语词汇检索系统WordNet将概念之间的语义关系分为同义关系、反义关系、相似关系、上下位关系、整体一部分关系、继承关系和因果关系;微软公司开发的概念知识库系统MindNet把语义关系标记为24种不同的语义类型,包括同义关系、部分关系、属性关系、方式关系、意图关系、目标关系等;知网HowNet共定义了16种语义关系,如上下位关系、同义关系、整体-部分关系、工具-事件关系。

杜小勇等在获取本体中概念之间关系时主要考虑两种类型的关系:分类关系(taxonomy)和非分类关系(non-taxonomy)。分类关系主要指概念之间具有典型的分类结构,将概念组织成树状层次结构,每一个树中的概念都与其它概念构成上下位关系,体现了概念间的包含关系;非分类关系又称为非层级关系,主要指概念之间不具有典型的分类结构,但是概念之间具有一定的联系,反映了概念间的某些语义关系,类型多种多样,非分类体系主要考虑相关概念对的提取。概念间关系的常用获取方法有:基于语法模式的方法、基于概念聚类的方法、基于关联规则的方法、基于词典的方法、机器学习方法、形式概念分析法,或者这些方法的混和。

1.2.1基于语法模式的方法 基于语法模式的方法是在分析处理大量相关文本的基础上,发现频繁出现的语言模式,通过将文本中的单词序列与模式依次进行匹配判断,进而识别语义关系。这类方法的主要缺点是需要事先获得关系模式,但随着领域的变化可能要重新对其进行设计;而且模式的表示形式如果过于“严格”或“宽松”,都将会影响语义关系获取的召回率或精度。

1.2.2基于概念聚类的方法 聚类的实质就是使属于同一类别的个体之间的距离尽可能地小,而不同类别的个体间的距离尽可能地大。大多数聚类方法都具有特征选择或特征抽取、聚类算法设计或选择、聚类确认和结果解释4个基本步骤。利用概念之间的语义距离,对概念进行聚类,同一类簇中的概念将具有语义近似的关系。同时,也可以进行层次聚类,聚类的结果就是概念间的分类关系。关于概念层次聚类的研究有很多,但多存在一个共同的局限性,即只能得到概念间严格的层次关系。

1.2.3关联规则挖掘的方法 数据挖掘中的关联规则方法是用于获取概念间的非分类关系的常用方法,基本思想是如果两个领域概念经常出现在同一个语法单元,即出现在同一句子、同一段落或同一文档中,则这两个概念之间必定存在着一定关系。而它们之间联系的紧密程度和它们所在的语法单元有关。这个语法单元的语义内在聚合度越紧,那么这两个概念之间的紧密程度越高。但是大部分方法都停留在判断两个概念之间是否存在关系的层次上,难以进一步确定拙取出的概念之间具体是什么关系。

1.2.4基于词典的方法 很多词汇词典中定义了同义词、近义词和反义词等知识。叙词表也可视为语义词典,叙词之间的关系利用等同关系、等级关系以及相关关系三种语义关系来描述,可用来获取本体中概念间的分类关系。

1.2.5机器学习方法 与概念获取一样,人们对概念关系获取问题建立了一个学习模型,力求能把语言知识和统计规律相互融合在一个模型框架中,通过对大量真实语料的学习来确定模型的参数,进而解决概念关系获取问题。

1.2.6形式概念分析法 形式概念分析(formal con-cept analysis,FCA)是应用数学的一个分支,它建立在概念和概念层次的数学化基础之上。目前FCA的方法已经大量运用在概念聚类、数据分析、信息检索、知识发现和本体工程的应用之中。其概念通过属性来描述,能够从给定数据中提取出隐含概念以及概念之间的关系,形成概念模型(概念格),并用符号形式化的方式来表现,因此,采用FCA的方法可以帮助构建本体。

FCA的优点在于覆盖度比较大,而缺点是准确度不高而且容易产生数据稀疏现象。当前FCA适用于构建轻量小规模领域本体,不能自动提取除偏序、层次、相似等关系之外的复杂的语义关系。

2 实例

2.1简单实例

此实例使用统计方法提取概念,利用基于关联规则与模式匹配相结合的方法,提取概念问的分类关系。基本框架如图1所示:

其框架可分解为如下步骤:

・收集领域文集和一般对比文集。

・文档预处理。应用NLP技术进行分词。

・抽取候选术语集。候选术语的提取采用基于统计的方法,计算术语的频率。通过设置术语在领域中的出现频率阈值过滤出现频率很低的词或短语。对于一些在各个领域中出现频率特别高但不能反映领域专有知识的常用词,可以通过停用词表把它们过滤掉。

・过滤候选术语集生成概念集。通过选取,虽然从候选术语集中除去了常用词和出现频率较低的词,但集合中还包括一定数量的与领域无关的词,它们常常出现在多个领域文集中但又不在停用词表中,这时必须对候选术语集进行过滤。采用领域相关度和领域一致度相组合的方法来对候选术语集进行过滤,以生成真正的领域术语。这种方法需要对比文集做支撑。

・通过关系提取算法抽取分类关系并建立分类层次体系。利用基于关联规则与模式匹配相结合的方法提取本体概念间关系,其基本思想主要是:首先利用关联规则中的算法,如Apriori算法,在领域文集中发现频繁项目集;然后,利用由频繁项目集产生的关联规则搜索领域文档集,找出含此关联规则的句子,发现其中的模式,并人工排除不是分类关系的模式;最后再用模式匹配的方法抽取出领域文档集中的分类关系并建立概念间的层次关系。

2.2复杂实例

主要研究如何从大量专业文本中自动获取领域概念及概念间三种基本关系的方法。

2.2.1概念的自动获取 利用机器学习的方法,采用分类思想获取领域概念,把领域概念获取问题看成是一个二值分类问题。处理流程包括三个步骤:

・预处理:预处理输入的是训练文本,输出是带标记的候选领域概念集。首先利用自动分词方法和最大词串匹配算法等自然语言处理技术得出候选领域概念集。然后,对候选概念集进行人工标注,若是专业术语标注为正例,否则为负例。

・训练:输入是带标记的候选领域概念集,输出是一个训练好的预测模型。在获得候选概念集后,需要将这些候选概念表示成计算机可以识别的格式,以便训练分类模型。

首先,选用频度特征、词特征、邻居词特征这三类特征,为每一个候选领域概念构造一个带有类别标记的特征向量,由此得到一组训练数据样本。然而这样的样本向量空间维数非常高,给计算带来巨大压力。可针对邻居词特征的特点,筛选出最有代表意义的邻居词特征,降低特征向量的维数。

其次,需要计算不同特征的权重,从而能够更加准确地描述特征项在领域概念中的重要性以及不同特征项对分类所起的不同作用。这里的难点在于非平衡数据处理问题,即在候选概念集中,真正领域概念的个数远远小于非领域概念的个数,也就是说,样本中正例数据与负例数据分布极度不均匀。在文本分类中,有单边统计量特征选择方法和双边统计量特征选择方法两种方法。在非平衡数据下,前者容易使分类器误将负例判断为正例;而后者会导致漏选一些有用的负特征。

最后,运用分类算法从标注的训练数据中,学习一个推广性能最好的分类模型。项目选取了目前在文本分类中获得较好结果的4种分类算法:决策树、朴素贝叶斯、支持向量机和感知器,训练得出4个分类器。

・分类:利用训练好的分类预测模型预测新文本中的候选领域概念,得到真实的专业术语。

2.2.2概念关系获取 概念之间存在着各种不同形式的关系,此示例主要研究如何从文本中自动获取两个概念间的三种最基本的语义关系,即:①同义关系;②上下位关系:也称为从属/上属关系,子集/超集关系,或IS-A关系;③整体-部分关系。

领域概念关系获取问题可转换成一个多类分类问题,要求一个多类分类器能够正确区分同义关系、上下位关系、整体-部分关系三类词对。通常多类分类问题的求解是将其分解成一系列两类分类问题的组合来求解。具体处理流程包括三个步骤:

・预处理:利用前文方法中获得的领域概念集,检索领域语料。查找同时含有两个或两个以上领域概念的句子。然后将句子中的领域概念两两组对,形成候选关系词对集。

・训练:输入是每一个候选词对和每一个候选词对所在的句子,输出是一个训练好的分类模型。

在获得候选领域概念关系词对集后也需要将这些特征词对表示成计算机可以识别的格式,以训练分类模型,得到分类器。通过对标注语料的分析,选用词序特征、词形特征和上下文特征这三类特征,采用相关标引方法,组成特征向量表示每一个候选词对。

在将候选概念关系表示成特征向量之后,使用分类算法,从标注的训练数据中,学习一个推广性能最好的分类模型(分类器)。项目结合朴素贝叶斯和感知器两种分类算法的优点,提出混合分类算法,用以训练领域概念关系分类模型,取得较好的效果。

・分类:将新文本中的所有可能关系词对分别对应于同义关系分类器、上下文关系分类器、整体一部分分类器。经过归一化处理后,选择分值最高所对应的类别作为该词对的最终类别。

3 当前存在的主要问题及进一步的研究方向

经过几代人的努力,与本体自动构建相关的人工智能、自然语言处理等计算机技术已经得到长足的改进和完善,但是,其发展速度明显落后于网上文本内容的增速。在语义网尚未普及、本体和相关元数据相对匮乏的现阶段,我们还是要在这条艰苦的研究道路上继续探索,不断提高本体学习的自动化程度,把语义网运动的蓝图演变为现实。

本文按照领域本体概念和概念间关系这两个构成本体的核心要素,分层次探讨现阶段面向文本的领域本体学习的常用方法以及各种方法的优劣性和适用范围。在验证实例中,详细阐明了自动构建领域本体的思路、步骤和具体方法,并对实验结果加以评价。应当指出的是,在实际应用中不必单一使用某一种方法,为了达到更好的本体学习效果,可以将多种方法相结合,或者在构建核心本体的基础上,再运用其它方法对本体进行增量。

3.1文本分类技术

文本数据是Web中大量存在的一类非结构化的数据,也是用来构建本体的最重要的数据源。根据文本的内容或属性,由计算机自动分类,提取领域概念和概念之间的关系,是形成数据语义的一种有效的辅助手段。虽然文本分类技术近年来得到快速发展,在文本特征表达、特征降维、分类器设计、语料库方面作了大量工作,但仍然面临着很多问题。目前常用的文本分类方法在分类过程中的特征选取、权重计算和分类算法等方面,都存在一些不足之处和局限性。例如当类别规模增大时,准确度会急速下降,以至于分类结果不可用,而且在处理复杂类别的结构时也面临着巨大挑战。可见,对文本分类问题的研究是一个漫长的过程,其中,形成一种成熟的领域概念获取方法是一个长期目标。

3.2概念间关系获取

领域概念关系获取的正确性和难易程度,除了技术因素之外,还依赖于所处学科的复杂性以及领域知识所研究的范畴和所处层次。

在构建学科领域本体时,对于概念关系明确、严格的理工科类,如计算机科学,关系的提取相对容易处理。而对于经济学、管理学等交叉学科,概念的分类和界定存在很大困难。

同时,领域知识所研究的范畴和所处层次也有很大差异,这也是影响领域概念关系正确获取的一个关键因素。在《软科学手册》中,知识被分为0级、1级、2级知识:有关领域里的事实、定理、方程、实验对象和操作知识等常识性知识和原理性知识称为“0级知识”;经验性的知识(如经验规则、含义模糊的建议、不确切的判断标准等)称为“1级知识”;关于如何运用上述两级知识的知识,称为“2级知识”。显然,以当前的技术水平构造1级以上较为复杂的领域本体,将存在很多难以克服的困难。

因此,在不同的研究领域,因为研究方向不同,研究的侧重点也应有所不同。例如,在计算机科学领域,关注的是技术和方法的创新、改进与完善。而在数字图书馆领域,则应综合领域知识的复杂度、方法技术的特点与成熟度等多种因素,从不同层次建立相应的研究策略。

人类学概念范文第4篇

地理概念是地理基础知识的组成部分,也是理解和掌握地理基本原理、基本规律的关键。高中地理综合性 强、涉及面大,课本中出现的概念多,特别是地理术语和地理名词多,学生学习难度大。我个人认为,对地理概 念要重在理解,理解它的内涵和外延,不应死记硬背。本人采用了下列做法。

1 实地观察

一些概念照本宣科很抽象,可带领学生到室外实地考察,先观察地理事物的外部特征,再综合、分析,抓 住事物的本质特征,形成概念的内涵。如学习亚热带常绿阔叶林这一概念时,带学生观察校园里的樟树、山茶 树、广玉兰树等,并与梧桐树、柳树、水杉树比较,了解到前面这三种树木的叶子革质、有光泽、呈椭圆形, 并且终年常绿。“常绿阔叶”为它们共同特有属性。它们都是典型的亚热带常绿阔叶树,由这些树木构成的森 林即是亚热带常绿阔叶林。再让学生自己分析梧桐树、枫树、马尾松是不是常绿阔叶树?学生马上会回答:梧 桐树、枫树是落叶阔叶树;马尾松常绿而不是阔叶。这样,学生对常绿阔叶林这一概念的内涵和外延就有了比较全面的认识。

2 抓关键词

表达概念内涵即地理事物本质特征的往往只有几个词语。我们教师要帮助学生抓住关键词,分析疑难点。 如天体“宇宙间物质的存在形式”这一概念,学生对“物质”并不难理解,“宇宙间”却难以确定。我指出, 地球也存在于宇宙空间,是天体。但是,在地球大气圈以内的物质只能说是地球上物质,不能说是天体。地球 大气顶部是宇宙空间与地球的界线。教师只要讲清这一界线,学生就容易明白恒星、星云、行星、卫星、彗星 、星际物质、运行中的人造卫星和宇宙飞船等都是天体。而停在发射架上的人造卫星,或是降落到地面的流星 体残骸即陨星就不是天体。

3 归纳法

对内容较多、表述较长的地理概念进行归纳、提炼,分层次、多角度去理解。如自然资源的概念,完整的 表达是“人类直接从自然界获得并用于生产和生活的物质与能量”。如果对这一句话进行归纳、转换,就是下 列的两个属性:

自然属性:客观性,天然存在,没有经过人类加工。

经济属性:有用性,在当今技术条件下能用于生产和生活。两个属性缺一不可。这样一转换,自然资源 的内涵就一目了然。

4 类比法

明确了单个概念的内涵和外延后,为了能达到准确运用的目的,还必须搞清概念间的几种关系。

①近似概念。

如天气和气候,国土和国土资源,热带雨林和热带季雨林,水资源、水力资源和水利资源等都属近似概念 ,很易混淆。只有从本质特征即内涵上区分,找出相同点和不同点,才能确定适用范围。例如降水和降雨,都 表示大气中水汽凝结降落到地面这一现象。不同点是降水指从云雾中降落到地面的液态和固态水,而降雨即从 云中降落到地面的滴状液态水。可见,降雨只是降水的一部分,仅指液态水即雨水。所以,在描述气候特征时 ,如亚热带季风气候年降水量1000mm左右,用的是“降水量”;河流的五种补给形式之一是“雨水”即降雨,两者不可调换。

②矛盾概念。

外延相反的概念叫矛盾概念。如内力作用与外力作用,寒流与暖流,重工业与轻工业等。这类概念也必须 从内涵入手,找出差异再分析外延上的相反性,确定“矛盾”所在,才能正确区分。如可再生资源和非可再生 资源是一对矛盾概念。可再生资源是在人类历史时期内不断更新生长、繁殖的资源;在人类历史时期内不能重 新出现的即是非可再生资源。两者的差异便是“人类历史时期内能否重新出现”这一时间尺度,也是导致外延 相反的主要原因。根据这一标准分析,矿产资源是非可再生资源,生物资源、土地资源、水资源、气候资源等 都是可再生资源。

③包含关系的概念。

地理环境、社会环境、城市环境三个概念,都表示人类生存的环境。但地理环境是以人类为中心的环境; 社会环境是人类在自然环境基础上通过长期有意识的社会劳动创造的人工环境;城市环境是人类对自然环境干 预最强烈的地区,人口多、房屋密集、交通拥挤是最大的特点。可见三个概念中,内涵最丰富的是城市环境, 外延最大的是地理环境。它们外延上的关系可用下图表示:

附图{图}所以,要区分这类概念,应在确定内涵的基础上,根据内涵大外延小,内涵小外延大的原则来分 析彼此间的包含与被包含的关系。

④概念的广义和狭义。

人类学概念范文第5篇

1.实地观察

一些概念照本宣科很抽象,可带领学生到室外实地考察,先观察地理事物的外部特征,再综合、分析,抓 住事物的本质特征,形成概念的内涵。如学习亚热带常绿阔叶林这一概念时,带学生观察校园里的樟树、山茶 树、广玉兰树等,并与梧桐树、柳树、水杉树比较,了解到前面这三种树木的叶子革质、有光泽、呈椭园形, 并且终年常绿。“常绿阔叶”为它们共同特有属性。它们都是典型的亚热带常绿阔叶树,由这些树木构成的森 林即是亚热带常绿阔叶林。再让学生自己分析梧桐树、枫树、马尾松是不是常绿阔叶树?学生马上会回答:梧 桐树、枫树是落叶阔叶树;马尾松常绿而不是阔叶。这样,学生对常绿阔叶林这一概念的内涵和外延就有了比 较全面的认识。

2.抓关键词

表达概念内涵即地理事物本质特征的往往只有几个词语。我们教师要帮助学生抓住关键词,分析疑难点。 如天体“宇宙间物质的存在形式”这一概念,学生对“物质”并不难理解,“宇宙间”却难以确定。我指出, 地球也存在于宇宙空间,是天体。但是,在地球大气圈以内的物质只能说是地球上物质,不能说是天体。地球 大气顶部是宇宙空间与地球的界线。教师只要讲清这一界线,学生就容易明白恒星、星云、行星、卫星、彗星 、星际物质、运行中的人造卫星和宇宙飞船等都是天体。而停在发射架上的人造卫星,或是降落到地面的流星 体残骸即殒星就不是天体。

3.归纳法

对内容较多、表述较长的地理概念进行归纳、提炼,分层次、多角度去理解。如自然资源的概念,完整的 表达是“人类直接从自然界获得并用于生产和生活的物质与能量”。如果对这一句话进行归纳、转换,就是下 列的两个属性:

自然属性:客观性,天然存在,没有经过人类加工

经济属性:有用性,在当今技术条件下能用于生产和生活。两个属性缺一不可。这样一转换,自然资源 的内涵就一目了然。

4.类比法

明确了单个概念的内涵和外延后,为了能达到准确运用的目的,还必须搞清概念间的几种关系。

①近似概念

如天气和气候,国土和国土资源,热带雨林和热带季雨林,水资源、水力资源和水利资源等都属近似概念 ,很易混淆。只有从本质特征即内涵上区分,找出相同点和不同点,才能确定适用范围。例如降水和降雨,都 表示大气中水汽凝结降落到地面这一现象。不同点是降水指从云雾中降落到地面的液态和固态水,而降雨即从 云中降落到地面的滴状液态水。可见,降雨只是降水的一部分,仅指液态水即雨水。所以,在描述气候特征时 ,如亚热带季风气候年降水量1000mm左右,用的是“降水量”;河流的五种补给形式之一是“雨水”即降雨, 两者不可调换。

②矛盾概念

外延相反的概念叫矛盾概念。如内力作用与外力作用,寒流与暖流,重工业与轻工业等。这类概念也必须 从内涵入手,找出差异再分析外延上的相反性,确定“矛盾”所在,才能正确区分。如可再生资源和非可再生 资源是一对矛盾概念。可再生资源是在人类历史时期内不断更新生长、繁殖的资源;在人类历史时期内不能重 新出现的即是非可再生资源。两者的差异便是“人类历史时期内能否重新出现”这一时间尺度,也是导致外延 相反的主要原因。根据这一标准分析,矿产资源是非可再生资源,生物资源、土地资源、水资源、气候资源等 都是可再生资源。

③包含关系的概念

地理环境、社会环境、城市环境三个概念,都表示人类生存的环境。但地理环境是以人类为中心的环境; 社会环境是人类在自然环境基础上通过长期有意识的社会劳动创造的人工环境;城市环境是人类对自然环境干 预最强烈的地区,人口多、房屋密集、交通拥挤是最大的特点。可见三个概念中,内涵最丰富的是城市环境, 外延最大的是地理环境。它们外延上的关系可用下图表示:

附图{图}所以,要区分这类概念,应在确定内涵的基础上,根据内涵大外延小,内涵小外延大的原则来分 析彼此间的包含与被包含的关系。

④概念的广义和狭义