首页 > 文章中心 > 正文

关联出版物数据组织框架

关联出版物数据组织框架

关联数据特性

关联数据,尤其是关联公开数据是互联网的巨大财富,为图书馆从书目管理向知识关联的迁移提供了重要的发展机会[3]。相比其他的技术,关联数据的门槛较低,难度较小。关联数据是语义网较为成功的应用。通过将现有数据以RDF的形式重新并加以关联、共享,将无结构、半结构的数据进行结构化表达。将已有数据为关联数据需要遵循以下原则。首先,任何实体必须有唯一的URI[4]。即所有的事物应以HTTP形式表达。例如,关于图书有ISBN、出版商、出版时间、地点等。关于某人的数据包括出生地、出生年月日、工作地、发表的论文、科研项目等必须有唯一的URI表示。此方法确保实体不会被混淆。这种方法较之图书馆、情报服务界过去沿用的DOI等方式,更具有机器可读性。因此适于应用在更广阔的领域[2]。其次,数据需要以RDF三段式表达。即文件事物、特性、值。例如,“某书的出版单位是武汉大学出版社”。其中,“某书”是主语,“出版单位是”为谓语,“武汉大学出版社”是宾语。其中,“武汉大学出版社”在“所在地”、“主管单位”、“成立时间”、“重要出版物”、“邮政编码”、“电话区号”、“经纬度”等RDF三段式表达中又可以作为主语。通过这种形式,所有的关系都可以关联起来。其中,特定的“邮政编码”、“电话区号”、“经纬度”等一般为常量,不再进行新的RDF关联。以RDF三段式表达的数据形式,每一段均可回答特定问题。例如,“哪本书是由武汉大学出版社出版的?其作者的工作单位、联系方式是?”这些问题以传统的数据库查询方式即可完成。但类似于“科研项目与武汉大学无关但在武汉大学出版社出版著作的有多少作者?”等涉及多表联查的问题是数据库处理的瓶颈。而这恰恰是关联数据的优势。由于大量RDF数据已经通过关联数据的形式在语义数据云图中提供共享访问,因此,不需要重复输入大量数据。而是通过对关联数据集进行SPARQL查询等形式获取所需关系。由这些例子可以看到,关联数据的三段式形式在问答中的重要作用。又如,“某人和武汉大学图书馆有何关系?”,类似的开放性问题的智能问答,需要在RDF中查找所有可能存在的关系,然后以合理的计算时间和空间代价完成收敛。毫无疑问,这些数据如果依靠人工提取会耗费大量时间和人力。如果约定使用标准的谓词词汇表,可以用自动提取的形式完成此类工作。

在出版物方面的应用中,瑞典国家图书馆对联合书目进行关联数据化处理。美国国会图书馆、法国、德国等国的国家图书馆用标题表等形式将书目等数据与语义数据云图进行关联。在关联公开数据集中,数据来自不同专业机构,通过DataHub(数据集成交换)链接在一起。CKAN项目对其中的数据进行统一评价、管理。在目前集成的关联数据集中,数据质量参差不齐。截至2011年质量较高的关联数据集已有200多个,而这一数字在未来1~2年内可能会增长3倍。其中,统计数据集、词汇表、艺术、气象、图书馆书目数据关联组提供的数据经过测评被公认为具有较高质量。该数据集提供的词表、本体、人名、地名规范、会议名称等对于本领域及其他领域学者的研究和具体应用作用巨大[3]。在具体的应用中,通过RDF嵌入到HTML中,链接到Dbpedia等关联数据集。也可以专门的应用程序(Apps)实现对关联数据的调用。据预测,未来3年内,互联网上的大部分人物、事件将具有关联数据的形式并提供公开访问。在LinkedOpenData(关联公开数据)中,最重要的是关联(Linked)。尽管关联程度可能存在差异,不一定是整个数据集完全关联,但即使部分数据实现了关联,也可以先将已有的关联数据资源提供共享和访问[4]。公开(Open)是LOD(LinkedOpenData)的重要性质。关联数据的公开要求者和使用者署名完整。

未经许可,禁止进行商业使用。关联数据使用要求以相同形式分享。例如,在某PPT中使用了关联数据中的图表,则需要完整署名、同等分享。这一规定的作用在于,首先,数据提供者可以通过标准描述语言数据。其次,使得图书馆资源不再囿于原有束缚,面向更为宽广的应用领域。将书目数据与关联数据集链接,使得大量信息得到丰富。作者简介、书号、出版时间、出版社等大量内容可供访问。RDF三段式中的主谓宾的宾语又可变为主语,在关联数据集中不断扩展。从而将数据库中的数据打开,使其变为网络数据库的部分功能[5-6]。例如,通过关联数据查询胡昌平教授主编的《信息服务与用户》出版单位和出版时间,不仅可以获得所需要信息,还可以进一步扩展至作者胡昌平教授的简介、研究方向、科研项目、、论文合作者、其他相关著作及出版物的书目、体裁、语种。图书馆通过将现有数据通过关联数据的形式进行再利用,充分发挥已有较大规模、高质量书目数据的优势,将已有数据与关联数据集中的语义资源接轨。例如,上海图书馆将下属各分馆所在地址、馆藏书目等信息联系起来,通过规范数据,图书馆关联数据孵化小组对于数据的获取、匹配、关联等方法进行了一系列研究。过去图书馆中的数据是知识获取的终点,而在关联数据的支持下会变为知识获取的起点。图书馆不仅提供详细、准确的书目信息和图书资料,还能与外部非图书馆、非文献等数据进行关联,从而重新成为知识殿堂。

本文提出一种基于映射的图书馆关联出版物数据自动生成方法。映射的依据是语义相似度。首先需要明确两个概念:语义相关度和语义距离。语义相关度表示词语之间的关联程度,反映的是概念之间的组合特点。例如图书与出版社相似度很小,但是相关度却非常的大,每个图书都离不开出版社。语义距离表示词语之间在语义树上经历的路径,是衡量两个词语之间的语义相似度的一种手段,语义距离越小,语义相似度越大。本文在关联出版物数据的组织中,采用语义相似度来判断出版物概念间语义关系。

关联出版物数据组织框架

关联出版物数据组织模块关联出版物数据组织与语义查询的总体结构如图1所示。通过人工或半自动方式建立基本知识本体;以其中的概念为基础对获取的出版物资源预处理并将结果转化为RDF三元组构建关联数据。用户通过服务接口以自然语言或SPARQL方式查询,经过语义推理和语义扩展对关联出版物数据进行语义查询;扩展基本本体构建领域知识本体库。出版物网站和图书馆网站中已经积累了大量的文档资源,基于语义Web和本体技术将这些异构无序、缺泛关联的文档转换成具有语义索引结构的关联出版物数据。进一步扩建和集成领域知识本体,构建可管理的知识体系,为知识服务建立数据基础。通过领域词典和专家知识构建出版物知识本体,建立基于学习特征的知识本体元数据模型,全面描述出版物知识基本信息、知识类型、认知结构、知识之间的语义关联和认知顺序。建立包含出版物结构中章、节、知识点的知识本体,包括各种粒度知识的标识、名称、类型、描述、前导、后继和关联知识等。研究知识本体使用RDF框架描述和用关系数据库方式存储出版物知识本体库。基于知识本体的语义标注组建关联出版物数据,对XML元数据描述的出版物学习对象及URL定位的学习资源,在出版物知识本体库的支持下,以RDF三元组描述和用URI建立它们之间的链接,组建关联出版物数据[9]。结合目前的出版物网站资源进行关联出版物数据集成,并进行领域知识本体扩展[6]。通过基于本体推理和gate的半监督机器学习自动语义关系标注算法,以gate工具对出版物资源训练集进行实体识别,构建半监督机器学习的样本集合集训练样例,完成自动语义关系标注[11-12]。通过基于多出版物网站来源的多文档自动摘要算法,以已有的出版物网站资源为辅助,通过复合多项式算法进行文本块语义聚类,实现知识点自动摘要[13-15]。在以自然语言处理技术完成用户查询语句语义标注的基础上,应用领域本体实现用户查询语义扩展,提高对用户查询需求理解的精准度。应用领域本体推理,约简用户查询的语义表达,提高复杂语义查询效率。应用语义/语法近似技术,实现OWL-DL描述的大规模关联出版物数据的推理,在保持OWL-DL近似的语义查询精准度的基础上,提高其语义查询效率。

关键技术海量出版物资源的组织与处理是关于知识管理和知识服务的关键科学问题,解决方案包括:(1)基于语义网层次体系结构描述和组织出版物资源,把异构无序的海量资源组织成符合人认知规律的知识点关联的领域知识体系,实现无语义结构资源到有序可管理知识的转变。(2)对海量学习资源隐含的概念、属性及关系进行自动语义数据提取和标注,建立并扩展知识本体,为知识服务提供支持。(3)利用本体推理,实现针对大规模关联出版物数据的精准语义查询。

实验系统设计及实现

本文设计基于Protégé的关联出版物数据构建算法。

系统算法设计例如:概念“ELSA总线”继承了多个匿名类,分别代表了它的多个性质,其中“hasPrevsomeBUS”是它的第一个性质,hasPrev是一个对象属性,some关键字就是类表达能力里面描述的ObjectSomeValues-From存在限制,BUS是一种命名类,此种动宾结构式的表达用于匿名类中,然后让其他类去继承,以此来达到表现性质的效果。此处的匿名类“hasPrevsomeBUS”是内部类,也即“某总线”内部的父类,该父类无法被其他类共享或继承。完成如上步骤后,该类就具有了相应的性质,这种性质是具有语义信息的,能够为推理机所识别、理解、推理。同时这些性质就像对外的接口,能被其他类识别,以此作为桥梁和自身产生关联,比如推理出存在隐含的父子关系。关联数据构建中的算法Input:源于出版物资源的经预处理后文本Step1.提取出一个类的性质,将每个性质写成动宾结构Step2.对每个动宾结构提取相应的动词Step3.对应对象属性,提取相应的宾语,对应对象属性的客体Step4.将每组动宾结构写成匿名类的方式,然后作为该类的父类Output:Protégé中的类、属性表达本文将采用Bootstrapping方法进行未标注数据的分类(1)从图书馆馆藏的电子出版物资源中下载关于“微机原理及接口”出版物的文档数据,文档规模约为3G;(2)从所下载的电子出版物资源中找出含有实体对应关系的句子。从这些句子中抽取特征以形成对应的特征向量。为每个实体对选择50个实例作为待标注语料;(3)选取不同的类种子集,训练分类器,对特征值维度超过设定阈值的对象进行降维处理。对生成的实例测试集进行测试,分析所设定阈值的合理性,必要时进行调校。根据计算获得的最大关系类别概率设定关系类别阈值;(4)将符合条件的新标注数据添加至原训练集中,重新训练,对剩余的未标注数据进行测试,过滤得到较高质量的标注数据;(5)如果过滤后得到的标注数据数量大于等于设定的阈值,结束标注过程。否则回到(4)。此处阈值根据最大类别权值与极大类别权值的差值而设定的。我们以文本块为单位,识别出了包含一个概念的所有文本块及该概念所对应的具体类。下一步需要标注出这些类的属性实例,以及和其它类之间的关系实例,并在此基础之上生成RDF文档。我们首先找出包含指定概念的所有文本块;然后基于语义词典进行概念的识别,识别出领域专业名词;在此基础上,生成triples集合;最后进行统一实例的融合,并生成RDF文档。以输入的出版物资源片段为例:“RAM(randomaccessmemory)随机存储器。存储单元的内容可按需随意取出或存入,且存取的速度与存储单元的位置无关的存储器。这种存储器在断电时将丢失其存储内容,故主要用于存储短时间使用的程序。按照存储信息的不同,随机存储器又分为静态随机存储器(StaticRAM,SRAM)和动态随机存储器(DynamicRAM,DRAM)。这一文本块的核心概念是随机存储器,通过前面的方法,我们已经识别出它是一个存储器的实例。接下来,首先,找出包含“随机存储器”的句子,在本例中即是:“随机存储器又分为静态随机存储器(StaticRAM,SRAM)和动态随机存储器(DynamicRAM,DRAM)”。然后,通过基于语义词典的命名识别算法,可提取出概念的包含关系———本例中的谓词“分为”,概念名———本例中的客体“静态随机存储器”,概念名———本例中的客体“动态随机存储器”。根据本体规范生成三元组:(随机存储器,包含静态随机存储器)、(随机存储器,包含,动态随机存储器)。

实验系统环境实验系统环境为CPU1.8GHz、内存2G、硬盘大小为500GB。操作系统MicrosoftWindowsXPProfession-al。安装如下软件apache-tomcat-6.0.29、jdk1.6.0_14、apache-solr-1.4.1、Gate6.0、WordNet2.1、Protege4.2。

实验系统实现实验数据集合采用武汉大学出版社、华中科技大学出版社等出版机构自2002至2012年间出版的计算机硬件课程出版物共72本,如《微机原理及接口》、《数字电路原理》、《计算机组成原理》、《大规模集成电路》等。

关联出版物数据自动生成实验本文对关联图书馆数据自动生成进行实验。首先参照MUC和MET的评估指标对本信息抽取系统进行一个整体的评测,系统中的知识库涵盖了概念的中英文名称、概念解释、概念关系、所属知识单元、难度级别等内容,基本涵盖了关联出版物数据所涉及到的各个角度的内容,能够提供很好的支持。对该系统进行测试的数据集含有2336个经相关领域专家人工审核的概念,其中2139个概念已经由专家通过人工标注关联信息(用Link(total)表示)。在实验中,系统自动标注出关联信息2105个,用Link(autoannotation)表示。经过人工核查,发现系统自动标注2105个关联信息中有213个未达到摘要要求,用Link(error)表示。

关联出版物数据管理与本体建模实验图2是以为出版物《微机原理及接口》为例,介绍图书馆关联出版物数据管理与本体建模的界面。

实验结果分析由于实验中使用的出版物数据主要是教材,以说明文的形式出现,具有较为规范的文法表达,通过一些常用的指示词(如:…是指…等)就能够对候选摘要内容进行较准确的定位。因此,还可以对现有自动摘要算法中的特征模型进行修改,使其更加符合面向关联课程数据的多文档摘要内容的形式和规律。良好的扩展性使得本文方法能够在不断扩展抽取内容范围的同时,提高抽取信息的准确率。从应用角度来说,关联课程数据处理平台要求尽可能对每一个概念都能够提取一定的信息生成相应摘要,而对生成的摘要而言,并不要求其所表达的内容与来源文档表达的意思完全吻合。因此,在设计多文档摘要抽取系统时采用了提升段落、句子位置权重的方式提高信息抽取的准确率,这从一定程度上降低了摘要抽取的召回率。从实验可以看出,系统的准确率达到了一个较理想的状态。除了上述主观因素外,可能还受到了文档来源比较单一、数量较少的影响。这些因素在一定程度上提高了准确率,从而可能使多文档自动摘要的准确率高于真实水平。下一步改进的内容为:扩展多文档数据来源,收集更广泛的语义数据资源(如:出版物关联数据集),进一步完善关联出版物数据平台内容。

结语

用户眼中的信息空间已经发生了很大改变,不再局限于图书馆等机构内部,而是进入开放的互联网环境。用户对于信息的关联性及可用性更加重视。关联数据的应用关系到图书馆的发展前景。在互联网高速发展的形势下,图书馆在功能和存在价值方面不断受到挑战,整个局势较为严峻,图书馆界对此应高度重视,积极寻找应对策略。实验结果说明,本文所提出的方法可以满足关联数据构建的要求,但在关联出版物数据的更高级应用中可能需要本体推理,因此,在基于Protégé构建关联出版物数据时,需要在类的对象属性中设置互斥属性或函数属性,但此两种匿名属性当类层次较多时容易出现本体不一致的情形,所以,当关联出版物数据处理平台在面对海量出版物资源应用时,应增加本体一致性检测环节。

作者:瞿成雄单位:武汉大学信息管理学院