首页 > 文章中心 > 即时通信基本概念

即时通信基本概念

即时通信基本概念

即时通信基本概念范文第1篇

Abstract: In order to enhance the rate of accuracy and coverage fraction in the information extraction process,it has introduced the domain main body in the information extraction retrieval system. This paper introduced some basic concepts about main body,domain main body and discussed some mapping relations between the domain main body and the information extraction and has realized the handset domain main body in this information extraction prototype system and has applied this domain main body in the information extraction.

关键词: 概念;本体;信息抽取;领域本体

Key words: concept;main body;information extraction;domain main body

中图分类号:TP391 文献标识码:A文章编号:1006-4311(2010)14-0158-02

0引言

最近几年来,为了使人们能够按内容的语义表达需求,迅速准确地从成千上万的网页中过滤出自己感兴趣的内容,把本体广泛应用于各个信息领域中,同时已经成为目前信息科学研究的一个热点和难点,备受世界很多国家的重视。在信息检索和抽取[1]等领域中,本体发挥着越来越不可缺少的作用。信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。基于领域本体的信息抽取系统,可以实现让用户得到具有个性化的信息服务,同时通过领域本体为信息源提供相应的语义标注,这样可使系统对本领域内的概念以及概念之间的联系有统一高度的认识,从而在一定程度上提高信息服务的查准率和召回率,实现为用户更有针对的信息服务。

1领域本体与信息抽取

1.1 本体的基本概念本体论(ontology)是一个哲学上的概念,是指哲学中研究世界的本原或本性的部分。不少哲学家把本体论看作是西方传统哲学思想(从柏拉图到黑格尔)的主干或”第一哲学”。从本体论的基本概念出发,哲学上把本体论定义为”对世界上客观事物所进行的系统描述”。

1.2 领域本体的概念领域本体(Domain ontology)是用于描述指定领域知识的一种专门本体,它给出了领域实体概念及相互关系领域活动以及该领域所具有的特性和规律的一种形式化描述[2]。

1.3 领域本体[3]在信息抽取中的应用基于领域本体信息抽取是新型的信息抽取方式,它利用领域本体而不是扁平结构的辞典与词表来识别抽取信息,领域本体信息抽取可以在语义层而理解抽取信息,同时可以通过领域本体实例对抽取信息内容进行语义标注,从而提高了信息抽取的查准率和召回率。

1.4 信息抽取检索系统中领域本体的构建知识工程中的本体是人为设计的关于某个领域的概念模型的一种表示。目前己有的本体很多,出于对各自问题域和具体工程的考虑,构造本体的过程也是各不相同的。由于没有一个标准的本体构造方法,不少研究人员出于指导人们构造本体的目的,从实践出发,提出了不少有益于构造本体的标准。

2领域本体的构建

2.1 领域本体的设计原则通过分析总结,本体的设计原则可以概括如下[4]:①明确性和客观性:即本体应该用自然语言对所定义术语给出明确的、客观的语义定义。②完全性:即所给出的定义是完整的,完全能表达所描述术语的含义。③一致性:即由术语得出的推论与术语本身含义是相容的,不会产生矛盾。④最大单调可扩展性:即向本体中添加通用或专用的术语时,不需要修改其己有的内容。⑤最小承诺:即对待建模对象给出尽可能少的约束。⑥最小编码偏差:本体的建立应尽可能独立于具体的编码语言。⑦使用多样的概念层次结构实现多继承机制。⑧尽可能使用标准化的术语名称。

2.2 领域本体的构建步骤在实际的构建过程中,根据问题领域和具体工程的不同,形成多种构建本体的方法。目前,知识工程界比较成型的建模方法主要有:如骨架法[5]、企业建模法[6]等。参照这些构建领域本体的方法,结合信息抽取中的具体情况,并参考软件工程中的某些思想,领域本体的构建步骤如下所示。

具体如下:①确定领域本体的范围:明确构建的本体将覆盖的专业领域、应将本体的目的、作用以及本体的用户范围。②列出领域中的重要术语:列举出本系统想要陈述的或要向用户解释的所有概念。③建立本体框架:这时需要按照一定的逻辑规则把它们进行分组,形成不同的工作领域,在同一工作领域的概念,其相关性应该比较强。④设计元本体,重用已有的本体,定义领域中概念及概念之间的关系。⑤对领域本体编码、形式化。⑥领域本体的检验评价。

3信息抽取在手机领域本体的实现

根据以上关于领域本体的设计原则和实施步骤,本文在开发领域信息抽取原型系统时,主要使用手工和半手工的方式实现了手机领域本体,在系统的销售领域中起了很大作用。

3.1 手机领域本体的框架设计基于领域本体的web页面信息抽取主要是利用本身的描述信息进行抽取,因此对网页结构的依赖较少。采用这种方法进行信息抽取,预先需要领域专家采用手工方式书写某一应用领域的本体(其中包括对象的常值、关键字的描述信息)。根据领域本体的概念、概念属性以及属性之间的关系需要建立相应的关系数据库。然后根据本体中常值和关键字的描述信息产生抽取规则。对每个无结构的文本块进行抽取获得各语义项的值,最后将抽取出的目标信息放入根据领域本体的描述信息生成的数据库中。那么,下面对比较重要的数据表及其作用进行各个说明如下。

①实体概念数据表用于保存手机领域中可能相关的实体概念。刚刚建成时,可以通过人工查找、识别出领域实体的一些概念,并保存到数据库中。在此以后,可通过计算机辩别出领域实体概念,并把它追加到数据库中手工进行检验。②实体概念特征词数据表,该表存储每个实体概念在文本中又可能出现的近义形式或术语。例如实体概念“手机”而言,在文档中有可能变成为“大哥大”、“手提”、“mobile”、“mobilephone”。③属性概念数据表用于存储手机领域中可能存在的属性概念。该表主要用于保存属性概念中在真实文本中有可能出现的近义术语或形式。④属性值概念数据表用于保存领域中可能的属性值概念。该表主要用于保存每个属性值概念在文本中出现的术语或形式。⑤概念关系表主要描述手机领域的实体概念之间存在的种种关系。

3.2 领域本体中概念间关系的实现手机领域本体中概念间的关系的表示通过几个概念关系表和各数据表之间的关系来实现。该领域本体由多个数据表组成,它们不仅描述该领域的实体概念、属性概念、属性值和相对应的特征词,而且对实体概念之间的关系、实体概念、属性、属性值之间的关系进行描述。而实体概念关系表描述的是实体概念表中的两个实体概念之间的关系。实体概念、属性、属性值关系表描述的是实体概念、属性、属性值之间的相互关系,如表1所示。

3.3 手机领域本体的具体应用本文的信息抽取原型系统的命名实体识别、实体关系抽取和任务抽取3个抽取任务,对显示器领域本体都有大量的应用,主要集中在如下几方面。

①命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别,即发现命名实体和标注命名实体。在命名实体识别阶段,领域本体可以提供许多语义信息。利用这些语义信息对本体中的实例进行实体和关系的抽取有非常重要的意义。基于领域本体的抽取检索系统可以利用本体中的实例进行实体和关系的抽取,并不试图运用规则来发现新实例,不对知识库进行丰富,其目标是抽取的精准率和效率。②信息抽取系统基本上主要采用机器学习算法来实现抽取任务,其目标是最大程度地实现关系的抽取。它实现的关键是算法在关系识别任务中的正确率和效果,适合应用于精粒度的信息抽取。③信息抽取系统基本上都是基于模式匹配的,即首先从文本中学习出事件抽取模式,然后再用抽取模式去发现新的事件。而领域本体的语义信息能够用于抽取模式的获取过程事件抽取模式的自扩展过程,能够对已有的抽取模式进行语义扩展。④此外,在进行文本或某些网页的段落中的一些重要概念提取时,领域本体起了非常重要的作用。

参考文献:

[1]万捷,滕至阳.本体在基于内容信息检索中的应用[J].计算机工程,2003,29(4):122-123.

[2]张志刚.领域本体构建方法的研究与应用[D].大连:大连海事大学,2008.

[3]肖敏.领域本体的构建方法研究[J].情报杂志,2006(2):70-72.

[4]郭嘉琦.领域本体的构建及其在信息检索中的应用研究[D].北京:北京邮电大学,2007.

即时通信基本概念范文第2篇

关键词:财务会计概念框架 会计国际化 会计法律环境

一、引言

最早提出财务会计概念框架是美国财务会计准则委员会(FASB)1976年所公布的《关于企业财务报表目标的暂行结论》、《财务会计和报告的概念结构:财务报表的要素及其计量》和《概念框架研究项目的范围与含义》等文件中(王建新,2007)。一般而言,财务会计概念框架对整个会计准则的制定起到框架支持作用。目前世界很多国家都很重视财务会计概念框架的制订工作。马来西亚于1998年根据《财务报告法》了《财务报表列报建议框架》。2006年马来西亚会计准则理事会(MASB)53号征求意见稿(ED53),对《财务报表列报建议框架》进行了修订,并最终通过《财务报表列报框架》,于2007年7月1日开始施行。我国至今并无真正意义上的财务会计概念框架,但我国的基本准则实质上扮演了同样的角色。我国于1992年第一次《企业会计准则》,基于所面临的经济环境的不断变化,我国对《企业会计准则》进行重大修订,并于2006年了《企业会计准则――基本准则》,从2007年1月1日开始实施。本文所要讨论的均为中马两国修订后的《企业会计准则――基本准则》及《财务报表列报框架》。

二、中马财务会计概念框架体系及内容比较

(一)中马财务会计概念框架体系比较 马来西亚的《财务报表列报框架》(以下简称“框架”)共分为八个大部分共110段的内容,具体为前言、财务报表目标、基本假设、财务报表质量特征、财务报表要素、财务报表要素的确认、财务报表要素的计量、资本与资本保全的概念。而我国的《企业会计准则――基本准则》(以下简称“基本准则”)分为十一章共五十条,即第一章总则、第二章会计信息质量要求、第三章资产、第四章负债、第五章所有者权益、第六章收人、第七章费用、第八章利润、第九章会计计量、第十章财务会计报告和第十一章附则。中马两国财务会计概念框架具体内容的对应关系如(表1)。

(二)中马财务会计报告内容比较 本文根据中马财务会计报告内容,分别进行比较。

(1)“总则”与“前言、财务报表的目标、基本假设”比较。我国《企业会计准则――基本准则》“总则”中,主要提及了基本准则的制定依据、适用范围、财务会计报告目标、会计基础和会计基本假设,大致与马来西亚的《财务报表列报框架》第1段至第23段的内容相对应。从总体上来看,两者在财务报表目标、财务报告使用者方面的表述大致相同,但也存在差异,主要表现在:一是制订财务会计框架的目的。在马来西亚的“框架”前言第1段中,指出制订“框架”的目的在于:对马来西亚会计准则理事会将来要承认的及现存的会计准则的发展进行指导;对财务报表列报在运用会计准则时进行指导;对审计人员形成审计意见,以判断财务报表是否遵循会计准则进行指导;对财务报表使用者在解释财务信息时进行指导;为那些对马来西亚会计准则理事会的工作感兴趣的人提供相关信息。在我国“基本准则”第―条指出了制订基本准则的目的是“为了规范企业会计确认、计量和报告行为,保证会计信息质量”。二是财务会计概念框架的法律地位。在马来西亚“框架”前言第2段中,明确指出了《财务报表列报框架》不是会计准则,对特殊的计量及披露问题不进行规定,同时,“框架”不会替代具体的会计准则。而在我国的“基本准则”第二条中指出,“基本准则”属于会计准则体系的有机组成部分。三是会计基本假设。马来西亚“框架”专门讨论了权责发生制(第22段)及持续经营(第23段)两个基本假设,对其他的基本假设并未涉及。而在我国“基本准则”的第五条、第六条、第七条和第八条分别阐述了会计主体、持续经营、会计分期和货币计量四个基本假设,同时在第九条明确了权责发生制的计量基础。四是财务报表的目标。马来西亚概念框架以专门的段落阐述财务报表的目标(第12段至21段),在第12段指出“财务报表的目的就是关于企业财务状况、经营成果及财务状况变化的信息,这些信息对一系列的使用者在作出经济决策时是有用的。”在我国“基本准则”第四条明确指出,“财务会计报告的目标是向财务会计报告使用者提供与企业财务状况、经营成果和现金流量等有关的会计信息,反映企业管理层受托责任履行情况,有助于财务会计报告使用者作出经济决策”。五是财务报表的使用者。马来西亚在概念框架的前言中,详细地列明了财务报表使用者及其对信息的需求(第9至11段),财务信息的需求者主要有投资者、雇员、贷款者、供应商、顾客、政府及相关机构和社会公众。同时指出企业内部管理者在满足其内部管理需要的情况下,可以自行决定内部额外信息提供的内容及形式,但这类信息的报告不包括在概念框架之中。我国在“基本准则”的第四条中提到财务会计报告使用者包括投资者、债权人、政府及其有关部门和社会公众等。对每一类财务信包,使用者的具体信息需求,并没有详细地进行解释。

(2)“会计信息质量要求”与“财务报表质量特征”比较。在马来西亚“框架”中提及了主要及次要的质量特征,其中主要质量特征为可理解性、相关性、可靠性和可比性,次要质量特征为及时性、重要性、可证实性、如实反映、实质重于形式、中立性、谨慎性、完整性和一致性。同时对于这些质量特征之间的关系,在该“框架”里进行了描述,如及时性对相关性和可靠性的限制等,并且对“真实与公允的反映”进行了解释。在我国“基本准则”第二章中,提到了八项质量要求,其中可靠性、相关性、可理解性和可比性是会计信息的首要质量要求,是企业财务报告中所提供会计信息应具备的基本质量特征;实质重于形式、重要性、谨慎性和及时性是会计信息的次级质量要求,是对可靠性、相关性、可理解性和可比性等首要质量要求的补充和完善。由上可知,中马两国在会计信息质量要求方面都把可理解性、相关性、可靠性和可比性作为其首要考虑的要求,而在次级质量要求中两国存在较大的区别。马来西亚共有九项次级质量特征,而我国仅有四项,除提及实质重于形式、谨慎性、及时性和重要性外,我国对“可证实性”、“如实反映”“中立性”、“完整性”和“一致性”均未进行阐述。此外,通过比较两国对会计信息质量特征的描述,我们可以看到,马来西亚框架对会计信息质量特征的描述更为充分,层次更为清晰,同时,在其框架中的第43至45段,对相关性与可靠性这两个质量特征相互抵触时应考虑的因素进行了描述,为企业如何提供会计信息以达到财务报表目标提供更为实用的指导。

(3)财务报表要素比较。两国在财务报表要素方面规定的异同主要表现在:一是财务报表要素的内容。马来西亚在“框架”中确定了五个财务报表要素,即资产、负债、所有者权益、收益和费用,而在我国的“基本准则”中定义了六个财务报表要素,即资产、负债、所有者权益、收

入、费用和利润。两国在定义财务报表要素时,只提及资产负债表及损益表要素,对现金流量表要素均未涉及到。二是财务报表要素的确认标准。马来西亚在框架的第83段对要素的一般确认标准进行了阐述,即“与该项目有关的未来的经济利益很可能流入主体”和“该项目的成本和价值能可靠地计量”。同时,对未来经济利益的可能性(第85段)、成本及价值计量的可靠性进行了解释(第86段),并且在框架中规定了资产、负债、收益和费用四个要素的确认标准。而我国在基本准则中,并未对要素的一般确认标准进行表述,只是在第三章、第四章、第六章、第七章分别明确指出资产、负债、收入和费用的确认标准。三是收益和费用的界定。马来西亚在阐述收益和费用时,第一,明确了利得和损失的定义,即利得是指那些符合收益定义,产生于企业日常经营活动之中或之外。它表示未来经济利益的增加。而损失是指那些符合费用定义,产生于企业日常经营活动之中或之外。它表示未来经济利益的减少,并对利得和损失所包含的内容以举例的方式进行了解释。第二,明确收益包括了收入和利得,费用包括了日常经营过程中产生的费用和损失。第三,明确利得和收入、损失与费用在本质上是相同的,因此其概念框架再没有必要单独作为―个财务报表要素。第四,利得和损失均包括了已实现的利得(损失)和未实现的利得和损失。第五,没有专门设置利润要素。而我国在“基本准则”的第六章、第七章和第八章中,第一,明确了收入和费用的定义。“收入是企业在日常活动中形成的、会导致所有者权益增加的、与所有者投入资本无关的经济利益的总流入”。而“费用是指企业在日常活动中发生的、会导致所有者权益减少的、与向所有者利润分配无关的经济利益的总流出”。同时明确了收入和费用的确认标准。第二,明确“利润是指企业在一定会计期间的经营成果”,并对利润的组成内容进行了阐述。第三,明确了利得和损失的定义。同时对直接计入所有者权益的利得和损失和直接计入当期利润的利得和损失进行了分类定义。四是财务报表要素列示的方式。马来西亚“框架”中,以举例的形式列举了资产和负债的形式,如资产可以是通过交换或通过偿还负债取得的。而在我国的“基本准则”中,对财务要素的阐述比较简单,仅列明其定义和确认条件。在马来西亚的“框架”中提出了资本及资本保全的概念(第102段至110段),具体内容如下:一是把资本分为财务资本与实物资本两种类型,财务资本是大多数企业在编报财务报表时所采用的。与此相对应,在资本保全方面就产生了财务资本保全与实物资本保全两个概念。二是资本保全概念把企业的资本与利润联系起来。在财务资本保全概念下,企业只有在期末净资产的金额超过期初净资产的金额时才算是实现了利润,财务资本保全通常是以名义货币或不变的购买力来进行计量。而在实物资本保全概念下,企业只有在期末实物生产能力超过期初实物生产能力时才算是赚取了利润。两种资本保全概念的区别在于实物资本保全要考虑物价变动情况。三是实物资本保全概念要求企业运用现行成本的计量基础,而财务资本保作并没有要求对某种特定计量基础的使用。在我国的“基本准则”中并没有涉及到资本和资本保全的相关内容。

(4)财务报表要素计量比较。中马两国均在“框架”中对财务报表要素计量进行了规定。从内容来看,两国所规定的计量方法略有不同。在马来西亚的“框架”中列明了四种计量方法,即历史成本、现行成本、可变现价值和现值。而在我国的“基本准则”中列明了五种会计计量方法,即历史成本、重置成本、可变现净值、现值和公允价值。在马来西亚所规定的计量基础中没有把“公允价值”纳入其中,现行成本实质上就是重置成本。从对计量方法使用的限制来看,马来西亚在“框架”中指出企业通常运用历史成本进行财务报表要素计量,至于对其他方法的选用并未作任何限制性规定,也就是说企业可以根据实际情况选用其他的计量基础。而在我国的“基本准则”第四十三条中指出,“企业在对会计要素进行计量时,一般应当以历史成本作为会计计量的基础。法律、行政法规和企业会计准则规定允许采用其他会计计量基础的,也可以采用其他会计计量基础,但应当保证所确定的会计要素金额能够取得并可靠计量。”由以上的阐述可知,在我国会计计量基础首选为历史成本,企业可以根据其体情况选用其他的计量基础,但是在使用过程中受到限制。马来西亚没有专门的段落来介绍财务报告,但在“财务报表要素”中介绍了资产负债表和利润表,对现金流量表并未提及,也没有对报表的适用范围进行规定。在我国的“基本准则”中专门以一章的形式介绍财务会计报告,并列明了财务报告的内容,同时指出了例外情况,即小企业编制的财务报表可以不包括现金流量表。

三、中马两国财务会计概念框架差异分析

(一)会计国际化程度的影响 马来西亚早在20世纪70年代就开始部分采用国际会计准则,在其财务会计概念框架的制订过程中不可避免地受到国际财务会计概念框架的影响,从内容到体例上与国际财务会计概念框架多有相似之处,甚至有些内容与国际财务会计概念框架完全相同。而我国对是否应制订财务会计概念框架及如何制订财务会计概念框架目前尚处于争论之中,1992年及2006年修订的基本准则虽在实质上发挥概念框架的作用,但离真正意义的概念框架还存在一定的差距。

(二)会计法律环境的影响 我国作为―个成文法国家其法律主要体现为体系完整性、规定强制性。作为会计法律制度第二层次的基本准则无不体现这些特点,即我国的基本准则具有法规式会计概念框架的特征,同时我国的基本准则对具体准则又具有统驭的作用。而马来西亚的司法体系属于英美法系,在马来西亚的整个会计法律体系中,1965年《公司法》及1997年《财务报告法》对其财务会计概念框架及会计准则的制订产生了重要影响。马来西亚会计准则理事会(MASB)负责制订财务会计概念框架及相关的会计准则,但在其概念框架第2段中明确指出,概念框架不是具体的会计准则不对准则的相关计量和披露进行规定,同时概念框架不能替代任何已通过的会计准则,即是会计准则优于概念框架。由于两国的会计法律环境不同,直接导致财务会计概念框架的体例及内容都有所不同。

(三)经济环境的影响 中马两国同属新兴的发展中国家,两国经济在近年均取得了很大的成就。尤其是我国改革开放后经济建设所取的成绩更是有目共睹。但由于历史原因,我国市场经济发育程度不高,资本市场的发展存在诸多问题,由此导致中马两国财务会计概念框架中对财务要素的计量、财务会计的目标等内容存在着差异。如在财务要素的计量方面,我国直至2006年才着次在基本准则中确定公允价值作为一种重要的计量基础,同时在相关的具体准则中规定了公允,价值的三个级次,并对公允价值的使用范围进行了限制。而在马来西亚的概念框架中虽然没有把公允价值作为―种计量基础,但提出了“真实与公允地表述”的观点。而在资本保全方面,马来西亚概念框架提出了实物资本保全和财务资本保全,考虑了价格发生变化时如何对企业利润进行衡量。而目前我国并无财务资本保全的概念,但是在《企业务通则》中体现了资本保全的思想。

四、思考及建议

即时通信基本概念范文第3篇

    图书情报界组织文献资源的历史已有两千多年,对信息资源的组织也有20多载,面对知识资源的数字化,我们所面临的前所未有的挑战是对知识的组织。什么是知识组织?对知识组织的诠释需与信息组织加以比较才能准确界定。简单地说,信息组织是对无序的信息进行系统化和有序化的过程,对信息的描述、揭示以及序化是信息组织的中心内容。知识组织则是对知识的本质以及知识间的关联进行揭示和控制的过程及方法,对信息的优化和重组,对知识的结构、关系和语义的描述与揭示,对知识的提取、挖掘和智能化表示是知识组织的中心内容。

    当前,数字图书馆的资源组织正由信息组织向知识组织迈进,在对数字资源的知识组织中,知识本体无疑是最本质、最重要的技术和方法。知识本体可以看作是对知识规范的抽象和描述,是共享、重用知识的方法,目前已经成为一种提取、理解和处理领域知识的工具。如果把某一学科领域知识抽象成一套概念体系并使其“明确”、“形式化”和“共享”,就构成了这一学科的领域本体。领域本体的特征是针对特定的学科领域,描述了某一学科中的概念、概念的属性、概念间的关系以及属性和关系的约束。通过某领域的知识本体可将该领域的知识组织起来,使数字图书馆对知识的表示从信息的集合到知识网络和知识地图。

    构建领域本体的方法已经成为一个新的研究热点,在实践中也产生了一些面向不同应用需求的本体方法,如IDEF-5法、骨架法、企业建模法、METHONTOLOGY法、循环获取法、七步法等。虽然领域本体的开发与建设面向不同的、特定的学科领域,但其过程则具有一定的规律性,需要以一定的科学方法为指导,需要遵循一些通用的技术路线。作者曾在另文中提出本体构建的原型进化方法,本文以此为基础,聚焦于一个本体进化的周期过程,对其中的基本流程和方法作一概要的梳理和分析。

    一个学科领域知识本体原型的建设,一般包括本体需求分析、本体构建规划、获取本体信息、确定本体概念及关系、本体形式化编码、本体的评价、本体的进化、本体的表示等过程。

   

2 本体需求分析

    领域知识本体建设一定要根据具体的应用需求进行建设。如同软件工程注重需求分析一样,知识本体的开发与建设必须将本体需求分析置于首要位置。

    需求分析阶段是本体开发的开端,也是本体建设的基石。它是从实际应用的规划、目标及特点出发,对本体系统进行的一种规范化描述。一般来讲,本体需求可分为功能需求和非功能需求。功能需求主要描述本体的目标实现;非功能需求主要描述本体要达到的性能指标。

    作为数字图书馆领域的本体建设的需求分析,其要旨是确定领域本体建设的目的、范围、用途和使用者。基本内容应包括:

    所构建的知识本体覆盖的学科领域,该学科领域资源的基本状况。

    知识本体的建设目的、任务要求,实现的社会效益与经济效益。

    利用知识本体的基本用户与核心用户,用户需求的基本特点。

    较之其他资源系统,知识本体将提供什么样的服务。

    知识本体和其他资源系统的关系,包括资源的进一步映射和整合。

    知识本体在建设时间、进度上的要求。

    对本体需求分析时要注意以下问题:

    需求分析的过程性。本体需求分析应包括需求调研、分析需求、需求描述、需求认可、需求演进等逐次递进的过程。需求分析不仅应是本体实施的前提,而且应贯穿于本体开发的整个生命周期。故此,要进行科学的安排。

    需求分析的动态性。因为本体需求贯穿于整个本体建设过程,用户需求在很多情况下是隐性的。不明确的,所以本体需求分析只能建立在不完全的需求基础上。为此,本体需求分析既要维持需求的稳定性和精确性,也要在实施过程中不断地进行动态调整。

    需求分析的文档化。为了指导领域本体建设的后续工作,应该编写一份基本需求描述完整、具有可操作性的“需求分析报告”,以文档的形式明确需求分析的结果,作为该阶段的成果。

   

3 本体构建规划

    “凡事预则立,不预则废”。本体建设应有明确的计划,其目的是用一套程序和标准来规范开发过程,让研究者和建设者了解其目标和所要做的工作,将偏离目标的损失减至最小;同时合理有效地开发计划便于对建设过程进行检查和控制,预防可能出现的问题,及时采取有效的应对措施,使本体建设置于一种规范化、可视化、可控制的管理之中,提高本体研究与建设的效率。

    本体建设计划应以“需求分析报告”为依据,主要解决三个基本问题:确定目标,确定完成目标的程序,确定工作所需要的资源配置。内容大致包括:

    明确计划中要达到的工作目标,论证工作的重要性和必要性。

    明确工作的具体任务和要求以及每一阶段的中心任务和工作重点;对任务进行层层分解,列出工作责任矩阵,确定完成工作的优先次序。

    明确计划中各项工作开始和完成的时间,在任务分解的基础上进行统筹 规划,以便有效地控制和协调。

    说明完成计划的方式方法、具体措施,对资源进行合理分配和集中使用,并进行综合平衡。

    规定控制标准和工作指标,也就是说必须做到什么程度,达到什么标准才算完成了计划。

    制定计划是本体建设过程中必不可少的重要步骤,但在研究项目中往往被忽略,致使其开发过程难以受控,从而导致实施过程中的重新计划。本体建设计划的关键是计划的合理编制和有效执行。

   

4 本体信息获取

    获取领域信息是领域知识本体建设的关键。这一阶段的主要目标是确定领域知识本体的信息源,获取领域本体信息,通过收集领域信息,充分了解领域知识的现状,为本体建设奠定基础。获取领域信息大体有两条路径:

    复用现有本体。获得领域信息的最根本的方法应该是考虑复用已有本体的可能性,通常的方法也是最行之有效的方法是复用已经广泛使用于各个学科领域的主题词表(也称叙词表)和分类表。

    主题词表中的主题是表达文献主题的词和词组,是经过规范化处理的,具有专指性、准确性、明确性和唯一性。其具有完备的参照系统,通过主题词下设置用、代、属、分、参等多种参照项,以表示概念之间的等同关系、等级关系和相关关系,在主题语言系统之间建立起语义联系。

    与主题法不同,分类法中的类目(概念)是表达文献内容学科知识领域的概念,是遵循逻辑分类规则建立的科学语言,具有知识的系统性和整体性。分类法具有完备的类目组织系统,通过等级结构、逻辑关系显示文献主题概念(类目)之间的从属、并列、交替、相关等各种关系,在分类语言系统之间建立起语义联系。

  本体是概念和概念关系的集合,而主题词表/分类法也是主题词(概念)和关系的集合,其基本功能和本体具有一致性。目前,作为主要检索语言,各种主题词表和分类法已经覆盖各学科领域。复用现有领域本体可以使本体的建立事半功倍。但是,由于传统的主题词表与分类法中的术语是规范的(不能用自然语言来表达)、知识点是线性的(不能反映概念网络)、内容结构滞后(难以经常修订)、语义简单、缺乏对所应用资源的针对性等等,因此将其应用于数字图书馆的领域本体建设,需要对其进一步修改、完善。

    利用相关方法与途径获取。如果所建本体领域没有可用的主题词表和分类表,可以采用以下两种方式获取本体信息:一种是组织领域专家承建,领域专家通晓本领域学科体系和知识,能够较为准确地描述与提供领域本体的基本信息;一种是利用知识获取工具从数据库中提取,学科领域现有的不同类型的数据库可以看作是领域的知识源,通过一些知识获取技术(如关系数据库中数据字典、E-R图手段以及人机交互技术、机器学习技术等),从现有的数据库中提取专业术语,挖掘、发现学科的基本知识。

    如果将上述两种方式结合起来使用,可以获得更为完整和精确的领域本体信息。

   

5 确定本体概念及关系

    这一阶段的主要目标是确定领域知识本体的主要概念,揭示概念间的各种关系,构筑起领域本体的概念模型。

    确定领域知识本体的核心概念集。如果是复用现有的本体,即可直接应用领域主题词表和分类表中的主题词与分类名称作为领域本体的核心概念。它们都是经过受控处理的,语义及等级关系清晰、严格,可以根据应用的需要直接复用。

    如果是通过其他渠道获得领域知识,那么确定重点概念及关系的过程,可以参考骨架法中提出的middle-out方法。这种方法不要求概念的选择是自底向上或自顶向下。因为在领域知识中要确定哪些是顶部概念、哪些是底部概念是非常困难的。可尽量选取最基本、最常见的概念及关系,并用精确无二义性的术语加以表达。同时对应编制一份“术语集”,把选择术语的过程加以描述,罗列出最终选定的术语,并对每个术语赋予相应的自然语言描述。

    构建领域知识本体概念关系。即将所获得的领域概念组织成概念网络。

    如果是复用现有的本体,首先应考虑主题词表和分类表的对应关系,即主题词表概念间的等级关系与分类法概念间的学科相属关系。分类表可以看作是领域本体概念网络的主体结构,主题词表可以看作是概念网络的各级概念节点。

    目前各学科领域现有的主题词表和分类法都有其相应的电子版,也出版了一些类表和词表完全结合在一起的分类主题一体化词表,这种一体化词表中每一类目都对应着一个概念,类目间的学科等级就是概念间的等级关系。如果领域的主题词表和分类法是分别的或是分类主题对照词表,分类表与主题词之间没有完全的等值对应关系,则需要另外创建类目概念节点。可先利用主题词表中的各参照项关系形成概念网络(具有等同关系的所有主题词可形成一个概念),然后将分类法的学科体系结构嵌入其中,作为概念网络的主干结构,再建立具有等级关系的类目节点和概念间的对应关系。

    如果是自己创建的本体,其概念关系的建立也应该遵循上述方法。所建立的本体概念间的基本关系应该包括等同关系、等级关系和相关关系。

    将本体概念及关系模型化。明确了本体的概念以及概念间的关系,接下来就可以采用一定的方法(如图示法)来揭示概念间的各种关系。  

6 本体形式化编码

    本体的形式化编码阶段就是用选定的本体语言来描述知识本体。

    对于知识本体的描述,可以采用自然语言或逻辑语言描述,若要实现较强的推理能力,一般要用形式化描述语言进行表述。描述本体的语言应该具备4个基本条件:①基于某种形式的逻辑;②机器可读的;③具备编码语言的表达性\编码的精确性和语言的语义性;④支持语法和语义的互操作。

    本体的描述一般都是基于某种逻辑语言的,>目前RDF(S)已成为一个能对本体进行初步描述的标准语言。而描述逻辑(DL)是一个相当重要的知识表示语言,目前正被积极应用于本体描述,或者作为其他本体描述语言的基础。描述逻辑吸取了KL-ONE的主要思想,是一阶谓词逻辑的一个可判定子集。与一阶谓词逻辑不同的是,描述逻辑具有强大的推理能力,能够提供完备高效的知识推理机制,满足本体知识表达的需要。而且,描述逻辑的语法容易转换成XML/RDF形式,因此基于描述逻辑的本体模型更适合Web环境下概念建模与知识共享。

    目前几个主要的知识本体语言——CKML、OIL、DAML+OIL和OWL就是建立在描述逻辑的基础之上的。其中DAML+OIL是结合了OIL和DAML优点的一种本体描述语言,采用面向对象的方法用类和属性来描述领域概念的结构,具有清晰的语义,但不能表示规则。以DAML+OIL为基础的OWL是一种网络本体描述语言,通过类和属性来描述对象,并通过公理来描述类和属性的特征和关系,可以构造很丰富的关系类并支持自动推理。

    上述本体语言的表述能力不断增强,其技术也日臻成熟,已成为W3C国际标准的OWL是一种发展势头很强的本体语言,应作为本体编码的首选语言。为了提高本体编码效率,可以使用一些辅助工具来完成。编码过程结束之后,应该把编码过程和编码结果以文档的形式保存下来,为本体共享提供规范的文档。

   

7 本体的评价

    经过上述阶段,已经形成了一个初步的领域知识本体。本体能否实际应用,需要对其进行评估与测试。由于领域本体建设得不成熟,目前尚无通用的本体确认和评价的标准方法,更谈不上标准测试集。格汝伯(Gruber)[9]于1995年提出了本体构建的5条标准,即清楚(Clarity)、一致 (Coherence)、可扩展性(Extensibility)、最小本体的承诺(Minimal ontological commitment)、最小的编码偏差(Minimal encoding bias)。不过在其设计标准中并没有给出具体的评价内容。笔者类比于软件工程的软件测试,提出本体评价的标准。

    对应于软件开发过程的测试阶段,一般需要对领域本体的正确性和有效性进行评价,评价指标应包括:

    本体的完整性。即本体是否包括了该领域重要概念,概念及关系是否完整,概念的等级、层次是否多样化。

    本体的清晰性。即本体中的术语是否被清晰无歧义地定义。除了规范的主题、分类术语外,对本体进化产生的概念是否给出明确、严格的语义定义。

    本体的一致性。即概念间的关系在逻辑上是否严密、一致,能否支持本体在语义逻辑上的推理。

    本体的可扩展性。即本体可否顺利实施进化,本体能否在层次结构上可扩充,在语义上可丰富与完善,能否加入新的术语概念。

    本体的兼容性。即本体的开放性和互操作性,本体能否和其他领域本体及相关资源系统进行映射,包括系统层、逻辑层、语义层、表现层等的兼容和互操作。

    此外,对本体的评价还应包括本体建设过程中其文档的完备性、准确性、可操作性等的评价。

   

8 本体的进化

任何系统都会经过从简单到复杂,由低级到高级的进化发展过程,领域知识本体建设也不例外。随着领域知识的增加和应用需求的发展,本体需要不断进化。特别是对于一个应用性很强的领域本体来说,本体的进化可以看作是本体生命的延续。所谓本体进化,即是在现有领域本体的基础上,根据应用的需要,在本体结构、概念和关系上不断进行丰富、完善、改进的过程和方法。

    领域知识本体进化主要包括两方面内容:一是本体的自身进化,即是对已建本体进行更新,增加新的本体概念,扩展本体语义结构,完善本体概念间的语义关系。如何建立本体的自丰富机制,是本体自身进化需要重点研究的。二是本体的对外进化,即不同领域本体之间的互操作。因为不仅本体自身存在关联,不同的领域本体之间也存在多种关联,人类知识本是一个大的宏观的知识网络。目前每个领域都在建设本体,如果各个本体独立发展便将成为一个个本体“孤岛”。本体的对外进化主要通过映射机制,与相关领域本体的概念、关系及资源实体建立对应和关联,实现不同领域本体资源的共知和共享。

    领域知识本体进化的方式:

    本体的自动进化。即由研究专家采取一定的方法与技术,实现本体的自丰富。如通过机器学习、抽词算法、知识发现等方法发现新的概念和关系,然后定位到本体中去。

    本体的手工进化。即由通过了解领域本体建设情况的专业人员,以手工或半自动的方式获取新的概念和关系,将其补充到本体中去。这种进化过程比专家定义容易操作,比机器学习准确规范。但是它需要有合适的工具支持。

即时通信基本概念范文第4篇

关键词:WordNet 语义距离 语义相似度

中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2013)08-0113-01

语义相似度计算在很多领域都有着广泛的应用,如自然语义处理,信息检索,词义排歧,文本分类以及基于实例的机器翻译等。随着Internet技术的高速发展,语义相似度成为信息检索研究的重要组成部分。当前语义相似度计算方法大致可以分为两类:一类是根据世界知识或者某种分类体系的方法来计算,主要是基于按照概念间结构层次关系组织的语义词典的方法,根据在这类语言学资源中概念之间的上下位关系和同位关系来计算词语的相似度;第二类是基于统计的方法,主要将上下文信息的概率分布作为词汇语义相似度的参照。现有的研究中有的通过词结点之间上下位关系构成的最短路径计算语义相似度,文献[1-2]通过两个词的公共祖先结点的最大信息量计算语义相似度,文献[3-5]通过结合结点间的路径长度,概念层次树的深度,概念层次树的区域密度等因素综合考虑计算语义相似度。国外很多研究者利用WordNet中的同义词集组成的树状层次体系结构计算语义相似度。

1 WordNet简介

WordNet是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典,它不只把单词以字母顺序排列,而且按照单词的意义组成一个“网络”。由于包含了语义信息,所以WordNet有别于通常意义上的字典。

WordNet描述对象包括复合词、短语动词、搭配次词、成语、单词,其中单词是最基本的单位。描述对象被分为名词、动词、形容词、副词,它们各自被组织成一个同义词的网络,即有层次的树形结构,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也有各种关系连接。在WordNet中以名词为例最基础的语义关系是同义关系。Synset构成了树形结构中的每一个概念。除了上面提到的同义词关系WordNet中还有很多其他关系来表示不同概念之间的关系,例如上下位关系为如果同义词集合A的所有特征被包含在同义词集合B的特征集合中,那么B是A的下位概念,A是B的上位概念。比如“水果”和“苹果”,苹果包含了水果的所有特征,但是水果不具备苹果的独有特征,因此苹果是水果的子类是下位关系,而水果是苹果的父类是上位关系。

2 基于WordNet的概念语义相似度计算

由信息检索理论可知语义距离与语义相似度具有十分密切的作用,语义距离越大相似度越低,反之越高。根据Wordnet 中概念的组织关系我们将概念在层次树中带权最短路径距离作为语义距离:

其中C1与C2表示概念,weighti表示最短路径上第i条边上的权值。最短路径上权值一般认为层次树中两个结点的最短路径是连接他们最短路径上所有边的数目即weighti=1,但是结点在树中的深度也会影响到语义相似度,比如离根结点较远的结点之间相似度比距离根节点较近的节点间相似度大些,深度越大说明概念越具体,相似度就会越大。另外,在层次树中如果两个结点所处的深度一样,宽度越大其权值就越低,这是因为宽度越大说明分类分得越具体,相似度就越高。因此语义相似度除了考虑路径外还需要考虑结点所在树中的深度和宽度。所以我们定义从概念C引出的边的权值即概念C的权值:

通过权重和语义距离,我们定义语义相似度的计算公式:

其中是一个可调节参数,表示当相似度为0.5时的概念距离值。

3 结语

准确表达用户意图,判定概念之间的语义相似度是语义信息检索技术别重要的部分,本文介绍了英文语义词典WordNet及其相关的相似度计算方法,提出了一种同时考虑结点路径、深度和宽度的方法,解决当前信息检索中仅仅依靠匹配字符串来查询信息的局限性。下一步的工作就是将该相似度计算方法运用到XML文档的信息查询系统里提高查询质量。本文计算语义相似度也有不足之处:WordNet不会收录所有词的解释,因此会影响到实验的准确性,另外由于是英文词典,所以在处理中文文档的信息检索上还需要结合中文语言处理技术作进一步研究。

参考文献

[1]Resnik P.(1999).Semantic Similarity in a Taxonomy: An Information- Based Measure and its Applications to Problems of Ambiguity in Natural Language.Journal of Artificial Intelligence Research,11,95-130.

[2]Jiang J. and Conrath D.(1997).Semantic similarity based on corpus statistics and lexical taxonomy. In Proceedings of International Conference on Research in Computational Linguistics. Taiwan.

[3]Wu,Z.and Palmer,M.(1994).Verb semantics and lexical selection.In Processdings of the 32nd Annual Meeting of the Associations for Computational Linguistics,pages 133-138,Las Cruces,New Mexica.

即时通信基本概念范文第5篇

图像分类模块本文中采用的分类器是叠加(Stacking)集成分类器:将若干个弱分类器集成为一个强分类器。分别为图像特征、纹理特征和形状特征分别设计了一个基于SVM[5]的弱分类器,然后使用基于Stacking[6]的集成方法将上述的多个分类器集成为一个新的强分类器。支持向量机(SVMs)方法介绍支持向量机是一种基于统计学习理论的模式识别方法,在解决小样本、非线性及高维模式识别中表现出许多特有的优势。假设预先有一个训练集:(x1,y1),…,(xm,ym),其中即xi∈Rd即xi为d维特征值向量空间,而yi∈{-1,+1}代表类别标签。支持向量机的原理是通过一个非线性映射函数Φ∶RdHf(d<f),将原始线性不可分的特征值输入空间转换成一个线性可分的特征值空间;然后,寻找一个最优超平面将训练样例隔开。如图2所示(图2征值空间为2维,即d=2,最优超平面为直线),实心正方形和空心圆点分别代表两类样本,右图中的实心直线为分类线,而2条虚线分别为通过各类中距离分类线最近的样本且平行于分类线的直线,它们之间的距离叫做分类间隔(margin)。所谓的最优分类线就是能够正确将两类分隔开而且使分类间隔最大化的直线。所有位于分类线一侧的训练样本标记为-1,位于另一侧的标记为1。距离最优分类超平面最近的那些训练样本被称为支持向量,从图2中可以看出,支持向量相对于训练样本总体数量上要少得多,特别是当训练样本容量比较大的时候。这些支持向量决定了最优分类超平面。支持向量机的基本思想可以概括为:首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新的空间中求取最优线性超平面,而这种非线性变换是通过定义适当的内核函数实现的。图像视觉特征值颜色特征。颜色是在图像检索中应用得最为广泛的视觉特征,主要原因在于颜色往往和图像中所包含的物体或场景十分相似。此外,与其他视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的鲁棒性。图像颜色特征的表达涉及到多个方向。首先,存在许多不同的颜彩空间;其次,需要采用一定的量化方法将颜色特征表达为向量的形式;最后,还要定义一种相似度标准用来衡量不同图像之间在颜色上的相似性。首先抽取出图像的RGB颜色特征向量。上述的10个颜色足够表示图像的颜色信息,而且采用以上的颜色划分方式和人类的颜色认知习惯很接近。

通过图像分类模块,可以得到Web图像I的一个概念集合K=(K1,K2,…,Kn)。语义相似处理模块传统的图像自动注释方法虽然不需要人工参与或者是很少的人工参与,大大缩短了图像注释过程的时间,但是,由于没有采用有效的方法来确认筛选出来的文本哪部分是真正和图像内容相关的,所以提取出的图像注释文本中依旧存在很多的干扰信息。本文针对传统Web图像自动注释的缺点,提出一种利用自然语言处理语义相似度计算的方法,即基于WordNet计算语义相似性。WordNet[7]是一个词典,它的最小组成部分是同义词组成的词素,同时还包括了注释。如果一个词有多个含义,那么在WordNet中将有多个对应的词素。WordNet将词分成4大类:名词、动词、形容词和副词,然后使用各种关系将这些词联系起来,例如同义关系、反义关系、类属联系(IS-A联系)、属于关系、包含关系、部分与整体关系等。这些关系形成了词与词之间最基本的语义关系。本文中主要考虑的是名词之间的语义联系和动词之间的语义联系,还有少量的形容词和名词之间的语义联系,而其中最主要的联系是类属联系,它占据了语义关系总量的70%。目前已有不少基于WordNet计算语义相似性的方法被提出,主要分为三大类:基于信息量计算[8]、基于路径计算[9]和基于WordNet中词素的注释计算[10]。研究结果表明,基于信息量计算的JCN[11]算法具有较高的精确度,在语义相似计算模块中本文采用了这个算法的一个变体。JCN算法中使用了信息量这个概念。信息量[8]是用来度量一个层次结构中各个组成部分的度量单位。通常一个概念越具体,那么它包含的信息量就越多;相反,一个概念越抽象,那么它包含的信息量就越少。例如,“老人”提供的信息量相对于“人”这个概念来说丰富得多。本文中利用WordNet来计算一个具体的概念包含的信息量(IC),计算方法下:IC(c)=-log(P(c))(3)式(3)中,符号c代表一个概念(WordNet中的一个单词),P(c)是概念c和所有概念c包含的子概念出现的频率。从式(3)可以看出,在WordNet的关系结构中,越处于上层的概念出现的概率越大,相应的其包含的信息量就越少。在JCN算法中还使用了2个概念之间的最小共同体(lowestcommonsubsu-mer)这个概念,它定义为2个概念的WordNet结构中共享的最底层的节点。

为了测试本文中提出的图像自动注释方法,设计了一个小型的图像检索模型来模拟图像检索测试。在实验中使用了包含图像的网页共10000张。用户模拟输入一个查询(只实现了单关键词查询),然后图像检索系统根据图像的注释进行传统的文本查询,查找出和查询条件匹配的图像,然后返回结果给用户。在实验中采用了标准11点精确度-召回率图,即在召回率为0,10%,20%,…,100%这11个点采样计算平均查询的精确度。在召回率为0处的查询精确度定义为将查询结果中第一个正确结果之前(包括正确结果本身)的结果作为最后的查询结果,计算得出的查询精确度;召回率为10%的查询精确度定义为将查询结果中包含前面10%正确结果的结果作为最后的查询结果,计算得出的查询精确度。其他的定义类似于召回率为0和10%的精确度定义。实验中的图像注释方法除了本文提出的之外,还采用了传统的图像注释方法作为图像检索结果的测试基准。图4列出了实验结果。本文提出的基于分类的混合图像内容自动注释方法要好于传统的基于文本抽取技术方法,当召回率接近60%的时候,本文提出的方法的精确度接近传统的方法,主要原因是图像分类中一些分类错误导致的。

本文提出了一个比较新颖的图像内容注释方法,综合利用了文本抽取技术、数字图像处理技术、机器学习集合和自然语言语义处理技术,提高了现存的图像注释方法的精确度。当时从实验结果可以看出,由于图像分类结果的错误导致了最后图像注释结果的一些错误。而且本方法的使用限于Web图像的注释,即需要图像的周围有比较丰富的伴随文本,因而对于孤立的图像不能实现图像注释。这个缺陷解决的可能方向是首先在网络上找出和图像相近似的一些图像,在利用这些图像的周围文本完成图像注释。

作者:郑欣 徐军莉 单位:江西科技学院