首页 > 文章中心 > 正文

地质专业档案知识图谱构建和应用

地质专业档案知识图谱构建和应用

摘要:本文把自然语言处理、知识图谱等智能化技术和地质专业档案信息服务工作相结合,研究了地质专业档案领域知识图谱的构建方法和技术,并根据地质专业档案服务的特点,建立了地质专业档案领域知识图谱,实现了面向地质专业人员的地质档案智能化检索服务,并进行了实际的应用系统开发,提升了专业档案馆的专业化服务程度和效率。

关键词:地质档案;领域知识图谱;智能检索

地质档案的借阅利用以地勘单位的专业人员为主,他们查找相关资料基本上都是为了地勘项目或研究工作。传统的资料检索方式基本上都是根据有限的条件来检索地质档案,这种方法只能大概检索到档案而不能找到深度的相关资料,更不能从其中发现知识。如果想要得到更加深入的专业信息需要详细阅读和提炼案卷内容,这会给借阅者带来很大的时间成本。此外长时间占用馆藏机构服务资源,馆藏机构服务效率无法提高。基于上述情况,本文以智能化技术提升档案信息服务水平和效率为目标,探索自然语言处理、知识图谱等智能化技术和地质专业档案管理和服务工作的结合,从新的角度组织地质档案数据,研究地质专业档案领域知识图谱的构建方法和技术,建立了面向借阅服务的地质专业领域知识图谱,实现了地质档案智能化检索服务。

1地质档案智能化服务的技术基础

1.1自然语言处理

地质档案的专业知识隐含在专业的文字报告中,要想挖掘其中的知识必然离不开自然语言处理技术(NaturalLanguageProcessing,NLP)。自然语言处理技术实现人机间自然语言通信,意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。地质专业档案来自日常汇交和历史档案的数字化扫描,在地质专业档案管理和信息服务的不同阶段,自然语言处理技术都不可或缺。根据处理对象的粒度不同,自然语言处理在地质专业档案智能化服务中可以渗透在词法分析、句法分析、语义分析及篇章分析的不同层次。

1.2地质领域知识图谱

领域知识图谱(KnowledgeGraph,KG)又叫作特定行业知识图谱或者垂直领域知识图谱,指根据对某个行业或细分领域的深入研究而定制的版本,主要解决当前行业或细分领域的专业问题,如军事、公安、交通、医疗等特定领域,用于复杂的应用分析或辅助决策,具有专家参与度高、知识结构复杂、知识质量要求高、知识粒度细等特点。典型的领域知识图谱包括IBMWatsonHealth医疗知识图谱、海致星图金融知识图谱等。本文的地质档案知识图谱就属于此类,领域知识图谱中知识图谱节点和关系类型有限,对准确性和图谱的质量要求较高。地质领域知识图谱最大的问题是构建图谱所需的专业语言材料一般都比较缺乏,需要地质领域专家进行人工干预。

2地质专业档案知识图谱模式设计

地质专业领域知识图谱在逻辑结构上可分为数据层和模式层。数据层包含大量的事实信息,即实体、关系、实体或者实体、属性、属性值等三元组表示形式,将这些数据存储在图数据库中构成大规模的实体关系网络,进而形成知识图谱。模式层建立在数据层之上,是知识图谱的核心,通常使用本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等。本文中,地质专业档案知识图谱的模式框架由地质专业案卷类和地学专业知识本体联合而成,概念类型如下:(1)案卷类及关系定义:类之间存在相互的关系,类之间可以定义单向的关系,也可以定义双向的关系。(2)案卷类属性定义:与类相关的属性,如案卷类的题名、形成单位、资料类别等。(3)地学专业知识类定义:定义多个地学专业领域便于将类进行分组管理。如地质勘探域之下有工程勘探、地质评价、坑道钻探等类,基础地质之下有地层、地质构造、地质演变等类。

2.1利用地质档案元数据对知识图谱模式进行初步描述

地质档案元数据可作为知识图谱模式的第一描述来源。但为了知识图谱的通用性,需要所有的关联机构采取相同的元数据规范。国土资源部于2001年制订了《地质资料档案著录细则》,对地质档案元数据进行了统一规范,其中对地质资料档案著录项目及其用文规范做了详细约定,这给地质案卷类的创建提供了重要依据。本文根据地质档案著录规范中的元数据信息,把地质档案抽象为案卷、案卷属性、案卷属性类三个顶级类,构成案卷的基本抽象模式。再加上后面将要提到的地学专业知识类,就构成了地质档案知识图谱模式的基本概念,如表1。

2.2利用地学专业知识本体对知识图谱模式进一步补充

元数据只解决了知识图谱中的案卷信息规范问题,未解决知识图谱模式中的知识承载框架问题。地质档案知识图谱由案卷和地质专业知识两个层面组成,专业知识本体可以弥补元数据在专业知识信息描述方面的不足,丰富地质档案资源的知识信息表达。本文采取建立地质专业知识本体的方式来解决知识图谱中知识承载的问题。在地矿领域,吴永亮等[1]通过对地质数据的概念、属性、关系、规则及相应实例的详细表达,构建了矿产资源预测部分的地质数据本体。刘秀磊等[2]则针对煤矿典型动力灾害领域提出了一种本体构建方法,并采用Jena工具实现了本体的形式化。侯志伟等[3]根据地质年代时间属性及其特征和地层划分与对比、古生物、构造地质、地球化学,并根据性质和关系,产生一系列OWL或资源描述框架RDF文件。以《中国地层表》和《国际年代地层表》作为地质年代本体的重要术语为来源,建立了地质年代本。本文中,采用自上向下法对地质专业相关概念进行划分,以地质勘探主题为核心扩展到其他地学领域,在一定程度上建立了跨学科的地学本体,以尽量覆盖地质档案知识。具体通过地质领域专家整理相关概念和关系,利用本体建模软件protégé构建基于OWL文件格式的本体模型[4]。概念的顶层框架分为基础地理、基础地质、地球物理、地球化学、矿产地质、环境地质、工程地质、水文地质、海洋地质、地质勘探、岩石学、测绘学、地质资料等,然后逐级细分,最终形成地质专业档案知识体系本体框架。概念之间的关联用关系描述,是地质知识组织、分析、推理、关联检索的基本依据。主要的关系定义如下:(1)上下位关系,描述概念之间的层级关系,包括从属关系(即部分与整体的关系)、继承关系(父类与子类的关系),如“基础地质”与“地层”。(2)等同关系,描述同级地质概念或实例之间的等价关系。同一概念的不同命名,如“槽探”与“探槽”等。(3)交叉关系,有且只有部分内涵相同的两个概念之间的关系称为交叉关系,如“破碎带蚀变岩型金银矿”与“蚀变破碎岩型铅锌银矿”。(4)实例关系,用来描述概念与相应实例之间的关系,如“金属矿产”与实例“铁矿”。

2.3地质档案知识图谱数据模型与存储机制

地质档案模型和地学专业知识本体融合后形成知识图谱模式。知识图谱存储指专门为知识图谱而设计的底层存储管理方案,目前主流的知识图谱数据模型有RDF图模型和属性图模型。RDF(ResourceDescriptionFramework,资源描述框架)使用Web标识符来标识资源,使用属性和属性值来描述资源,是一种特殊的有向标签图,即边亦可作为顶点,顶点与边交集非空。与RDF图模型相比,属性图模型对于顶点属性和边属性具备内置的支持。目前,属性图模型被著名的图数据库Neo4j所采用,也是本文采用的方案。Neo4j图数据库遵循属性图模型来存储和管理数据,将结构化数据存储在网络而不是表中,具有“无索引邻接”特性。每个顶点维护着指向其邻接顶点的直接引用,用其查找邻接顶点比使用“全局索引”节省大量时间。这就意味着图导航操作代价与图大小无关,仅与图的遍历范围成正比。在具体实现中,Neo4j将边放到核心位置,并将属性图中的顶点、边、标签和属性分开存储在不同文件中。这种将图结构与图上标签和属性分开存储的策略,使其具有高效率的图遍历能力,如图3所示。

3地质档案知识图谱构建技术流程

根据地质档案馆数字资源的建设现状,地质档案知识图谱的建设主要包括地学专业知识本体构建、结构化和非结构化信息抽取、图谱节点创建和应用开发几个方面。地学专业知识本体的构建采用地质勘探领域专业人员整理各专业的相关概念和关系,然后本体建模。在信息抽取环节对OWL文件格式进行二次开发,转换成知识节点。同时,把知识词汇补充到自然语言分词处理的词典中,供后续对非结构化文本的分词处理使用。非结构化的信息来源主要是地质档案图文数据库中的正文、附图、附表等内容。结构化数据主要是地质档案元数据库中的案卷和文件信息,利用这些信息生成地质档案节点。地学专业知识节点和地质档案节点进行融合关联形成完整的知识图谱。其中,在融合关联的时候可以采用简单的知识词汇直接关联的方式进行,也可以进行命名实体和关系抽取后关联。知识图谱生成后,需要面向问题开发智能检索的API,因为地质专业档案涉及地质、矿产、地球物理等很多专业,通用的智能检索实现起来难度大、周期长。分专题把热门需求或者专业人员日常提问较多的问题进行开发,提供智能化的检索接口。

4地质档案知识图谱应用

知识图谱按照应用方式可以分为语义搜索、知识问答、推荐系统,以及基于知识的大数据分析与决策等。知识图谱的应用主要通过知识推理来实现。知识图谱推理可以形式化定义为:给定一个知识图谱KG=<E,R,T>和关系路径P,E和T表示实体集合,R表示关系集合,R中的边连接两个节点来形成一个关系三元组(h,r,t)∈T,由此产生一个KG中不存在的三元组G'={(h,r,t)|h∈E,r∈R,t∈T,(h,r,t)∉G}。知识图谱推理的目标是基于已有的知识,使用自动化方法推理得到潜在的实体之间的关系。比如已知(金,属于,贵金属矿产)和(贵金属矿产,属于,金属矿产)可以推出(金,属于,金属矿产)。知识推理的对象不仅包括实体之间的关系和属性名称,还包括实体的属性值和本体的概念层次。如,已知一个案卷的档号,就可以知晓该案卷的题名、编著者、资料类别等。本文基于地质档案知识图谱,实现了面向部分地质专业检索需求的语义检索。语义检索是知识图谱最典型的应用,它首先将用户输入的问句或条件进行解析,然后以有向图的方式提供满足用户需求的结构化语义内容,最后通过一定的形式将结果呈现到用户面前。通过对实际地质专业借阅用户分析,用户所需要关注的问题都是跟后续将要开展的工作紧密相关的问题。地质勘探手段、方法、实验方法和工作方法以及取得的已有成果是用户关注的重要内容,表2是本文中梳理的专业问题和重要知识词汇样例。本文在原有地质资料目录数据库和图文数据库的基础上建立了基于图数据库的语义检索服务。检索的结果以图谱的方式展示,在结果中可以进一步显示案卷级目录信息、文件级信息、空间位置信息等,并能够回答类似表2中的地质专业问题,实现了使用了某种野外勘探手段的资料、根据矿产语义查询涉及某种矿产或矿种的资料、查询和某种矿床成因类型相关的资料等一系列传统数据库无法解决的问题。如,在检索某地区内和研究目标词汇“二叠系”地层相关的案卷时,同时会把“阿木山组”地层的资料检索出来,因为在知识图谱中存在“阿木山组”地层属于“下二叠统”地层,“下二叠统”地层又属于“二叠系”地层的语义逻辑,如下图所示。

5结论

通过对自然语言处理、知识图谱技术的理解和分析,结合地质专业档案目录库、图文数据库,针对地质专业档案管理和服务的真实需求和面临的问题,建立了面向借阅服务的地质专业领域知识图谱,实现了地质专业档案语义化检索服务。领域知识图谱的应用效果很大程度上取决于知识图谱的规模和对问题域的覆盖程度。在后续研究中,需进一步完善以地质为核心覆盖其他专业的专业知识本体结构,完善非结构化信息抽取算法,实现地学专业知识本体构建的自动化,形成较完善的大规模的地质专业档案知识图谱,提高智能化服务能力。

作者:张晔 单位:内蒙古自然资源厅地质资料馆