首页 > 文章中心 > 古籍数字化

古籍数字化

古籍数字化

古籍数字化范文第1篇

关键词:古籍,数字化,保真

 

随着计算机和网络技术的发展和普及,古籍数字化的传播趋势与社会需求皆与日俱增。,古籍。作为当下一种主要的古籍整理形式,在古籍数字化过程中应该把“保真”作为首要的原则。,古籍。①闻一多先生曾经创造性地将诗学、美学批评中的真善美相统一的原则引入古籍整理之中,提倡在古籍整理中求真、求美、求善,其中又以求真居于第一。本文拟在描述古籍数字化的现状基础上就如何在古籍数字化过程中坚守“保真”原则谈一些看法。

一、目前中国古籍数字化的概况

虽然从上世纪七十年代开始就陆续有国外汉学家和台湾的学者尝试将中国古籍数字化,建立一些小型的古籍索引系统,但是,古籍数字化在中国大陆真正大范围的兴起当始于上世纪九十年代。自上世纪九十年代以来,各种形式的电子版古籍开始涌现市场,渐成气候,其中代表性的成果有:香港迪志文化出版公司与上海人民出版社合作出版的“文渊阁《四库全书》”电子版、中国基本古籍库光盘;北京大学中文系的《全唐诗》网上电子检索系统;袁林等人开发的《二十五史》、《大正藏》全文检索系统;上海图书馆的“古籍影像光盘制作及检索系统”、尹小林先生的“国学宝典”等。,古籍。,古籍。在这些数字化成果中当以“四库全书”和“国学宝典”大型数据库为典型代表,为当前学界广泛使用。毫不夸张地说,古籍数字化正在由浅入深地改变着学者的研究方式和普通读者的阅读习惯。

据粗略估计,中国存世古籍总计在10万种以上,如果计入碑刻、家谱等,约有15万种左右。②利用现代信息技术将浩如烟海的古籍数字化对于传承中华文明、弘扬传统文化无疑是大有裨益的。一段时间以来不少高校、学者和企业纷纷加入古籍数字化的行列,迄今已将近50亿字的古籍数字化了,然而,由于参与者的素质参差不齐,又缺乏统一的整理规范,导致古籍数字化成果的质量与水平良莠不齐。一些粗制滥造的成果,或由于选本不优,或由于校对不精导致失真,倘使继续以讹传讹,必将祸害不浅。因此,建立统一的整理规范,坚守保真原则成了当下古籍数字化过程中的当务之急。

二、古籍数字化的主要形式及其保真度比较

一般来说,电子版古籍与传统的纸质古籍相比较,其主要优势可概括为三个方面:一是快捷检索,二是易于储存,三是便于复制和传播。然而,从古籍数字化的实际效果来看,由于缺乏统一的规范和体例,导致一段时间以来出现的电子古籍鱼龙混杂,其中有相当一批或错讹频出、或选本不精。倘使谬种流传,必将贻害无穷。因此在古籍数字化过程中,必须把“保真”作为首要原则。在古籍数字化过程中要坚持和落实好保真原则首先必须了解古籍电子版“失真”的缘起。,古籍。

一般而言,当前不论是个人还是学术机构制作数字化古籍的关键词的检索,又可以将文本与图像对照。香港迪志文化出版公司与上海人民出版社合作出版的“文渊阁《四库全书》”电子版采用的就是这种方式。显然要最大限度的实现电子版古籍的保真,图文检索版应该是一种最好的方式。

三.如何达到电子古籍的保真要求

除了要选择要图文检索版的处理方式,当前和今后在古籍数字化过程中还要做好三个方面的工作。

一是要树立精品意识。中国古籍是中华民族历史文明的载体,任何从事古籍整理的机构或个人都应有树立古籍神圣的观念,在整理过程中牢固树立质量意识和精品意识。在推进古籍数字化的进程中要防止过于功利化的目的,切不可急功近利地赶时间追进度而忽视了质量的要求。

二是要建立和遵从古籍数字化的体例规范。一段时间以来,众多机构和个人在从事古籍数字化工作,他们大多依据古籍整理的一些传统规范或自己理解的规范来约束自己的工作,而此种约束又是软性的、多变的。事实上,由于古籍数字化长期缺乏统一的工作规程,对其质量标准缺乏统一的评判依据,这就势必导致电子版古籍质量与水平参差不齐。可以说,当前亟需出台一系列的体例和规范,对古籍数字化的版本选择、编码形式、署名版权、以及异体字、异形字、避讳字等的处理等问题形成有章可循的指导。针对目前古籍电子版本错讹多,信誉低,仅能用于查询索引,难以准确引用的弊端,据报道,前几年首都师范大学电子文献研究所与北京国学时代文化传播股份有限公司动员多方力量,联合启动了“古籍电子定本工程”,经过三年艰苦努力,并于2008年11月完成的古籍整理软件平台。③凡列入该工程的古籍书目,均将依据严格的标准和流程加工制作,最终可实现古籍数字化的零差错率。这些标准和流程在实践中经过修改和完善之后应当成为古籍数字化通行准则,唯有如此,才能奉献给读者“水明沙净”的优质电子文本,进而达到使研究人员无需核查原书即可放心引用的目的。

三是要做好相关人才队伍的建设。古籍的数字化是一项工程浩大的事业,所需的高素质人才既要具备深厚的古典文献功底,又要具备娴熟的计算机网络技术。然而,由于当前人才培养方式上条块分割以及每个人学习精力有限,要寻找这两种素质兼备的人才非常困难。,古籍。这就要求我们积极做好两方面的工作,一是要改革现今古籍整理人才的培养模式,打破专业的条块分割,将计算机网络技术与古籍文献整理技能打通,培养适应从事电子古籍的综合型人才。这一点,一些综合性大学在培养硕士、博士研究生人才的时候可以做出一些探索,尝试跨专业的人才培养模式。二是要做好古籍整理人才和计算机人才两者的合作。只有两类人才实现联合攻关才可能有效促进我国古籍数字化工作又好又快的发展。

参考文献:

①俞兆平,闻一多美学思想论稿[M]上海:上海文艺出版社,1988年版。第101页。

②王小宁,古籍数字化需要规范和引导——首都师大电子文献研究所所长、国学网总裁尹小林谈古籍数字化的使命与前景,人民政协报(学术家园)/2007年//8月/27日/第CO1版。

③池玉玺,古籍电子版有了统一体例,中国文化报/2009年//1月//18日/第001版。

古籍数字化范文第2篇

[关键词]图书情报学;古籍;数字化

[中图分类号]G250.76 [文献标识码]A [文章编号]1005-3115(2012)22-0101-02

古籍是指产生于1911年以前,记载中国古代传统文化、具有中国古典装帧形式的典籍。古籍是不可再生的文物,在长期的流通使用中,一些古籍纸张已经变质、变脆,不能再继续流传阅读。特别是一些孤本、珍本,更需要珍藏。由此,古籍收藏单位采取各种措施加以保护,其中古籍数字化是最理想的使用方式,可减少对古籍原本的直接使用,便于长期保存,还可使古籍资源得以有效的开发、利用。

在以纸本文献为主要文献类型的时期,我国的古籍工作者主要从目录、校勘、版本等方面入手,对古籍进行系统的整理。读者主要依据书目卡片检索和传统查阅方式查阅古籍。随着计算机技术和网络技术的推广,利用新兴技术手段开展古籍整理,实现古籍数字化,已成为古籍管理和利用的新方式。2007 年3月,国务院办公厅《关于进一步加强古籍保护工作的意见》,提出要“建立中华古籍联合目录、古籍数字资源库……进一步加强古籍的整理、出版和研究利用,特别是应用现代技术加强古籍数字化和缩微工作,建设中华古籍保护网。”①《意见》极大地推动了图书馆古籍数字化事业。因此,古籍数字化已经成为 21 世纪古籍整理的主流,代表着未来古籍整理、开发、利用的发展方向。

潘德利先生在《中国古籍数字化进程和展望》一文中对古籍数字化定义为“采用计算机技术对古籍文献进行加工、处理,制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献中所蕴涵的极其丰富的信息资源,为古籍的开发利用奠定良好的基础”。②定义认定了古籍数字化采用计算机技术对古籍文献加工处理,使古籍原典在计算机上实现浏览、检索、利用,从而揭示文献资源,为读者提供便利。主要采用古籍文献书目数据库和古籍全文数据库两种方式进行。其中,古籍书目数据库反映的是古籍的外在特征和基本文献信息,如书名、作者、版本年代、行款尺寸等,便于读者查找和图书馆古籍管理。全文检索数据库将古籍资源全文录入,转化为电子文本,供用户查阅,提供了一种以字符为主要处理对象,根据资料内容而不是外在特征来实现检索的先进查询手段。

当前,数字化古籍按载体形式可分磁盘资源和网络资源两大种。现有的磁盘版古籍一般有三种类型:一是图像版,它是将古籍直接以图像格式扫描存储。如《中国基本古籍库》,该数据库以 DVD—ROM 为载体,全套光盘库总计全文 20 亿字,版本图像 2000 万页,其中近 2000 种为世人罕见的孤本和珍本,具有极高的学术价值和收藏价值。二是全文版,它存储的不再是图像,而是数字化的古籍文本,是真正意义上的数字化图书,可实现全文检索和查找。三是图文版,它在古籍书页图像存储的基础上,将书中具有检索意义的内容数字化,并辅以数字化的电子工具书,为读者提供快捷有效的检索、统计、整理和编辑功能。《中国方志库》收录中国方志 8000 种。每种方志均制成全文文本和原版图像,总计全文超过 30 亿字,图像超过 3000 万页。可从区域、条目、全文三条路径进行全方位的检索。

随着网络技术的迅速发展和普及,古籍资源的网络化也成为一种趋势。它主要是将数字化的古籍资源在网络上有偿或无偿地,供互联网用户使用。例如,北京大学图书馆古文献资源库(http:///index.htm )是在北京大学图书馆馆藏善本古籍、普通古籍,以及金石拓片、舆图、契约等特藏文献的基础上进行相关的数字化加工而建设起来的,它包括古文献目录、图像、全文数据库,古籍、拓片、舆图等文献资源的系列著录系统,是提供给最终用户使用的检索平台。

古籍数字化减少了珍贵古籍的纸本流通,有效保护了珍贵古籍,方便图书馆工作人员对古籍的科学管理。古籍数字化还可使读者有效检索、利用古籍资源,帮助学者排除冗余信息的干扰。可以肯定地说,古籍数字化改变了学者查阅古籍文献的方式。他们可以利用文献机构的古籍文献数据库进行查询、阅读,可以随时随地查阅互联网上丰富的资源,这种阅读方式具有划时代的意义,它必然带来学术研究方法和方式的进步,进而推动科学研究的发展。

然而,在古籍数字化研发和使用过程中也出现了一些问题,值得我们关注,如古籍数字化标准不一,人才缺乏,数字化产品质量参差不齐,缺乏深层次开发产品,缺乏公益性古籍数字化产品,盗版猖獗,直接影响古籍整理数字化的快速发展。为了促进古籍数字化科学有序地进行,也为了满足广大读者的需要,广大古籍工作者或研发机构要认真总结经验,统一认识,取长补短,为社会广大读者提供优秀的高质量的数字化产品。根据目前古籍数字化工作中出现的问题,笔者认为应该从以下几方面推动工作的开展,以满足社会的需要。

第一,统一标准。如著录条例、数据库格式、编目软件使用字库等,以保证数据库的质量和查询服务效果,为读者提供一个共享古籍文献的统一平台。

第二,培养新型的古籍整理研究人员。古籍数字化需要的人才不仅要掌握中国古籍文献的分类、版本鉴定、编目,还要会编制数据库,懂得计算机网络、多媒体等现代技术,能开展研究和开发工作,这是古籍数字化需要解决的问题之一。

第三,做好古籍数字化前的整理工作。整理是古籍数字化工作前的重要环节,整理工作的好坏决定了数字化产品内容质量的优劣。整理首先要在古籍数字化选题上狠下功夫,尽量收集到有关的不同版本,在比较研究的基础上选择最优版本。对严重破损的图书,先修复再进行数字化。校勘是古籍数字化前一项重要工作。校勘的目的是为了有效地消除讹误,方便阅读。要考虑古籍读者群中专家学者注重原始文本的阅读,对版本有一定的要求,就应该采用图像扫描的方式保持原件本来面目,充分体现古籍善本的文物价值和文献价值。最好能提供文本和图像两套内容,前者实现全文检索和语词统计的功能,后者可提供读者浏览古籍的原貌。电子版校对可采用多文本交互的方法,对同一个版本的书籍,可以采用两人或多人同时输入,避免一些低级的输入错误,最后的文本应由专业人士校对,确保数字化产品的质量,将最优秀的数字化产品展现给读者。

第四,古籍数字化深度开发,满足多层次研究者的需要。古籍数字化的目的和作用不仅是保存与普及传统文化,同时还应为学术研究服务,为研究者提供更深层次的服务。一些研究者提出,今后的古籍数字化开发“应设法努力在各个统计知识库之间建立更密切的关联,以便于研究者将各种统计结果相互结合、参照、对比,获得更大的思考和研究空间”。③在古籍文献的不同版本之间建立起联系,“包括数字图像版与文本版、不同文本版之间的对照和切换,以便对照和互补互证”。④建立强大的以全文检索为基础构造的智能化检索系统,“实现包括条件检索、逻辑检索、模糊检索、组配检索、属性检索等多种类型的检索”。⑤使数字化古籍丰富多样,更符合学术研究需要的功能,从而支持甚至引导更深层次的研究。

第五,古籍数字化产品联合研发。古籍数字化是一项艰巨而复杂的工程,为建立起一个和谐的古籍资源库,应该走社会化协同合作之路,即收藏者、投资者、高科技企业、出版单位,多家参与联合共研共建,收益分享,为加快高质量、高水平、高速度的古籍信息资源数字化建设进行协作。

第六,做好古籍数字资源的共享。目前,古籍数字化资源虽然数量不少,但绝大多数为付费产品,限制了古籍数字化资源的利用。为了宣传中国传统文化,笔者认为:首先,应建立公益性的中国古籍基本读物网。⑥这个网站可由政府投入,将中国最精华的古籍读本放上去,并实行免费开放、检索和下载。国学网开发的《国学备览》,通过光盘这一载体,提供上千万字的古籍电子读物。这类公益性网站的建立,技术和资金上都应由政府提供。其次,建立注册式研究性局域网实现资源共享。这种共享包括书目的共享、文献的共享和研究成果的共享。如中国国家数字图书馆(http:///service/guancang/gujishanben.htm),在导航区点击“善本古籍”,可检索其馆藏的27万种古籍中的善本;北京大学数字图书馆古文献资源库(http://rbdl.cal /pages/In-struction.htm),收录北京大学图书馆古籍约150万册,其中善本近20万册;其他如中国人民大学图书馆普通线装古籍书目数据库,上海图书馆古籍书目查询,天津图书馆馆藏古籍善本图录,北京师范大学、复旦大学、吉林大学图书馆等,均有古籍书目可查询,供读者或研究者共享。

第七,为古籍整理数字化专门立法,杜绝盗版作品,有效地保护古籍整理数字化的合法权益,以保证古籍整理数字化的顺利进行。

第八,古籍普本有待开发。目前的古籍数字化开发集中在古籍珍本、善本上,而占古籍总数绝大部分的普通古籍却乏人问津。古籍数字化开发应该实行全部古籍数字化,把所有古籍最终纳入数字化系列中,为社会使用,最大程度地弘扬中国传统文化。将古籍信息数字化、网络化,做到资源的共知、共建和共享。

[注释]

①白瀛、周玮:《国务院办公厅古籍保护方案并统筹实施》,《人民日报》,2007年3月2日。

②潘德利:《中国古籍数字化进程和展望》,《图书情报工作》,2002年第7期。

古籍数字化范文第3篇

[关键词]古籍数字化

数字图书馆和大型电子文献资料库的开发和建设,近年来逐渐成为图书馆界和相关技术部门的一个热门话题。在这个话题中,古籍数字化也得到了高度重视。同时,科技的迅猛发展,促使电子产品日趋成熟和完善,数字化的电子古籍文献由此而生。

1 古籍数字化概述

古籍数字化是利用现代信息技术对古籍文献进行加工处理,使其转化为电子数据形式,并通过光盘、网络等介质进行保存和传播。随着数字技术及存储技术的不断完善和提高,古籍数字化将成为古籍整理和传播的未来发展方向,它除了有利于推动学术研究的良性发展以外,在加强文化遗产保护尤其是保存古籍善本方面也有着光明的前景和难以替代的功能。

据有关专家测算,善本古籍每经人工翻阅一次,其寿命就要缩短30年左右。而由于技术方面的限制,以往保护古籍、减少阅读破损的方法便是拍成缩微胶卷。这种方式诚然对古籍善本的保护有着重大贡献,在一定程度上也加大了古籍善本传播的范围,但其缺陷也是有目共睹的,尤其是遇到那些翻拍抄写或刻印质量较差的书籍制成的胶卷,往往令人由于字迹模糊而望书(胶卷)兴叹,而在大屏幕显示器上阅读高分辨率的数码照片则不存在这样的问题。古籍数字化的处理方式多种多样,即使用最简单的方法——把用数码相机处理的古籍善本页面放在网上供读者随时调阅,也能大大节约社会成本和读者的时间和精力,既有利于保护古籍,也有利于使这些难得一见的稀世珍品得到广泛传播。所以,古籍数字化是古籍再生性保护的重要手段,与传统以古籍修复为主的延缓性保护法相辅相成,较好地解决了古籍保护与阅读使用之间的矛盾,极大地提高了工作效率和读者的资源利用率。

2 蓬勃发展的古籍数字化工程

目前,国内的古籍数字化工作主要依赖于学术研究机构(如社科院文献信息中心),学校(如北京大学),专门技术公司(如超星、北京书同文),出版社(如迪志、汉文化联盟),公共图书馆(如北京图书馆、上海图书馆),并且已经有了不少优秀的成果问世。目前正在开发的古籍数字化相关工程主要包括:

(1)《中华再造善本》工程。以抢救、保护和发掘古籍善本为宗旨的《中华再造善本》工程为国家重点文化工程, 2002年 7月正式启动。该项工程通过对珍稀善本的“再造”,使之化身千百,分藏于各地,从而确保珍贵文献的传承安全并扩大流通,促进古籍善本最大限度的传播和利用。截至2008年,《中华再造善本》一期收录唐宋金元时期善本758种,29种二期工程“明代编”“清代编”的古籍也完成了试制。《中华再造善本》已初步实现了立项时“继绝存真、传本扬学”的目标。

(2)中国数字图书馆工程(nlc.gov.cn/)。该工程由中国国家图书馆倡议于1998年,2001年10月经国务院批准正式立项。其工程的重要内容之一就是发掘历史遗产,目前已开发出包含甲骨文、碑帖等图文数据库。

(3)北京大学 “中国基本古籍库”光盘工程(cn-classics.com/default.htm)。该工程1998年正式启动,全套光盘库共500张,分哲学、史地、艺文、综合4个子库20个大类,范围涉及先秦至民国的重要典籍1万余种,并提供多重检索功能,每种典籍有1个通行版本的全文信息,另附1~2个珍贵版本的图像数据,预计全文20亿字、版本图像2千万页。

(4)汉文化联盟 “汉文化资料库”工程(hanculture.com/)。内容涵盖历代重要古籍,按照经、史、子、集进行分类,精选底本勘校而成。与单纯的全文检索不同,资料库中包含《龙藏》(部分)、《历代书法全集》(图、文)和“汉文化考证检索系统”,极富特色。

(5)台湾典藏数字化计划(digiarch.sinica.edu.tw/)。该计划于2001年启动,参加机构有台湾“中央研究院”、台湾“故宫博物院”、台湾“历史博物馆”、台湾大学等。目前已建立台湾原住民数字典藏、台湾史前及17世纪考古遗址出土文物、中原考古遗址出土文物、历史地图遥测影像及航照图、历代传世文献、近现代名人知识库、汉籍全文数据库等人文与自然等方面的高质量的内容。

(6)中国历史地理信息系统(yugong.fudan.edu.cn/)。由中国复旦大学历史地理研究中心、美国哈佛大学、哈佛燕京学社、澳大利亚格林菲斯大学亚洲空间数据中心等机构合作开发。项目目标是建立中国历史时期基础地理信息系统数据库,使其成为中国历史GIS数据的基础平台。这是一个研究性、工具实用性都很强的开发项目,与单纯的把古籍转化成图片或检索文本的数字化不同,也显示出另一种古籍数字化的发展方向。

(7)“国际敦煌学”项目(idp.bl.uk)。1993年由英国图书馆开发。项目中包括英国(并计划扩展到世界范围内)的敦煌文献数字化。目前可在线上查看英国图书馆收藏的30 000余件中亚写本和印本文件以及15 000余件残片的高质量彩色图片。

(8)“古藤堡计划”(promo.net/pg/)。由美国伊林诺斯大学文理学院米歇尔哈特倡议,始于1971年。计划对世界上的一些经典古籍进行数字化,其中包含了中国经典文学、历史和地图等方面书籍和资料的数字化内容,如《论语》《桃花源记》《三国演义》等。其中国境内访问的镜像站为ftp://ftpbook.dhs.org/mirrors/gutenberg/。

此外,像超星数字化图书馆和一些公共图书馆也在其电子图书中不断增添新的古籍,一些古籍研究机构和个人也在工作中将相关文献变成电子文本,这也是古籍数字化队伍中不可忽视的力量。

3 在古籍数字化处理过程中需注意的若干问题

毫无疑问,古籍数字化的最终目的是更大范围、更便捷、更有效地让古籍文献为人们所利用。然而,由于用户群体的不同,其需求也存在较大差异,因此这个“用”也显示出不同的层次。为了满足多层次、多方面的需求,我们在研制和开发检索快、功能全、质量高的古籍数字化产品时,必须要注意以下几个问题。

3.1 制订并规范古籍数字化的元数据标准

元数据在不同的领域有着不同的定义和应用,在图书馆界和信息界被定义为:提供关于信息资源或数据的一种关于结构化的数据,其功能为描述数据本身之特征或属性,用以规定信息的组织结构,便于对数据进行标准化处理,也为与其他信息系统的对接和共享数据提供必要的接口。但由于古籍整理和古籍数字化属于比较特殊的种类,规模相对较小,目前尚无相关标准。因此,从事古籍数字化的图书馆必须主动与IT领域联合,共同制订并规范元数据标准。包括:1)版本信息,如版本类型、年代、版式、字体、刊刻地点、刻工姓名等;2)收藏信息,如该文献收藏于哪个或哪些图书馆,以方便那些从事版本学研究的专家到馆查看实物;3)作者信息,古籍数据库应该对其中的作者进行严格的辨析并提供相应信息,包括作者姓名、朝代、生卒年、籍贯、著述等;4)作品信息,如作品的作者、体裁、创作年代、字数等,便于读者统计、分析。

3.2 统一古籍数字资源的文件格式

目前用于存储古籍数字资源的文件格式有纯文本(txt)、超文本(html)、便携式文档(PDF)、电子书e-book(CEB)、超星图书(PDG)等,名目繁多,甚至有些从事古籍数字化的专业机构或公司出于产权保护的需要自行开发数据系统并制订相应的文件格式。这无疑对数据共享是一个极大的障碍。因此,从古籍数字化的长远目标来看,我们应当统一其文件格式,这种格式既要适合汉字尤其是繁体字的存储,又要具备足够强大的加密功能,以保护各自的知识产权。同时,为保证数字化古籍的科学、严谨、规范,这种文件格式还应该能够方便地进行汉语拼音标注和人名、地名标记。另外,这种文件格式应有利于进行全文检索,并能够对检索出的字词予以凸显或标记。

3.3 建立完善的汉字字符代码集

汉字种数约有十万左右,其中常用字不过三四千,绝大多数字属于僻字,而这些不常见的僻字是计算机无法识别的。因此,在古籍整理及数字化处理过程中遇到无法录入的僻字时,常常用方框、黑块等符号表示空缺,或者用数字代替,链接到字形图片,或者说明偏旁的上下左右内外等,这就给阅读造成了极大障碍。目前,《国家“十一五”时期文化发展规划纲要》在“重大文化产业推进项目”中列有“中华字库”工程——建立全部汉字的编码和主要字体字符集,希望能够解决此类问题。

3.4 尽量找 “全”、找“准”古籍文献

以《国学宝典》为例,目前收录的电子文献已经不少,容量相当可观,但仍遗漏了许多应该收录的内容。比如“宋初四大书”,其他三种都已收录,唯独文学价值最高的《文苑英华》未收。又如,诗话类著作收了一些,但重要的《沧浪诗话》却未收录,尤其是别集类文献。对于研究者来说,事实上别集往往比总集更重要、更有用。总集通常用以检索,别集则是阅读和研究的依据,但大量收入别集,靠目前的录入法是很难实现的。可行的办法是挑选别集善本,尤其是经今人精校、精注的别集,通过扫描加以“复制”,就能又快又好地解决这个问题。

3.5 建立功能完善的古籍全文检索系统

古籍数字化最大的优势在于能够进行检索,所以有一个功能完善的检索程序是古籍数字化建设的重要标准。

(1)检索速度要快。在几秒钟之内,应列出关键词所在页面的所有条目,并按一定顺序排列。

(2)检索系统要符合学科特点。如上海人民出版社出版的《文渊阁四库全书》,在其电子版中若要查找宋代书法家、诗人黄庭坚的资料,由于黄庭坚自号“山谷道人”,而古人习惯上称号而不呼名,又经常省略姓氏,所以在进行关键词检索时,不仅要将“黄庭坚”作为关键词检索,更要以“黄山谷”和“山谷”作为关键词。当在这套电子版《文渊阁四库全书》中以“山谷”作为关键词搜索正文时,系统反馈8 592条信息,但其中有价值的信息不足十分之一。因此,在系统开发过程中,一定要有专业学者的深度参与,如对准备导入数据库的文献进行专业加工,对文献中出现的相关人名、地名进行必要的标注等。

(3)满足多条件检索。古籍专家学者或古籍爱好者在互联网上搜索其所需的古籍资源时(特别是精确查找),往往需要选用能同时满足多条件查找的复合检索方式(比如按朝代、作者、文体……),即“A+B+C+……”条件组合检索,这些功能在学术研究上都是非常有用的,只可惜目前现有古籍软件的检索功能较单一,难以做到精确检索。比如电子版《文渊阁四库全书》有“与”“或”“非”三种组合选项,但当软件把“与”“或”“非”的出现条件限定在“一卷”而不是“一个页面”的范围时,“与”“或”“非”的检索基本上无意义。又如“中国基本古籍库”提供按朝代检索的功能,但一次只能选一个朝代,不能同时多选,使用起来也不方便。

(4)检索结果应显示详细出处并能复制。一条完整的出处应包括作者、作者所属朝代、书名、卷数、篇名五项信息,这样的出处才符合学术需要,然而目前还没有符合这一标准的电子古籍。“中国基本古籍库”5.0以前的版本没有出处复制功能,最新的6.0版能在检索到的条目页面下显示出处,并提供出处复制,但只有书名和卷数,过于简单,使用者还得通过翻检补充朝代、作者、篇名等信息。

3.6 合理选题、优化资源是建设高学术水准古籍数据库的质量保证

由于没有统一规划,目前的古籍数字化成果能对历史和古代文学等学科发展有重要影响的数据库尚不多见。因此,建设一系列具备较高学术水准的专题数据库是未来古籍数字化的发展方向。中国社会科学研究院文学研究所数字信息室正在进行的“元代文献数据库”和“《红楼梦》研究资料数据库”正是根据这样的理念立项并建设的。这类数据库由于有相关专家学者的深度参与,可以保证在学术层面上达到较高水准。它不仅仅只提供检索功能,而首先是把这个领域或这个专题所涉及的文献全部网罗进来,在此基础上对文献作了必要的深加工,这将大大提高古籍数字化的建设质量及使用效率。

[参考文献]

[1]段泽勇.古籍数字化的回顾与展望[J].图书馆理论与实践,2004(2).

古籍数字化范文第4篇

径。

一、我国古籍数字化的研究现状

为了传承中国传统文化,香港、台湾和大陆地区的古籍数字化形成了互为补充、共同发展的局面。

1.港台地区的古籍数字化情况

20世纪80年代,台湾和香港就开始了古籍的数字化工作。上世纪80年代,台湾中央研究院开始了“史籍自动化计划”,建立了廿五史全文资料库。1988年,香港中文大学中国文化所研究成立“汉达古文献数据库中心”,是研究所“古文献数据库研究计划”的专门出版单位,也是香港从事古籍数字化工程的中坚力量。

2.中国大陆古籍数字化研究现状

与港台相比,大陆的古籍数字化工作起步稍晚,但发展迅速,大有后来居上之势。北京书同文数字化技术有限公司制作了文渊阁《四库全书》(与迪志文化出版有限公司合作,2000年完成)、《四部丛刊》(2001年完成)、《历代石刻史料汇编》(2004年完成)、《十通》(2004年完成)、《大清五部会典》(分别编撰于康熙、雍正、乾隆、嘉庆、光绪五朝)、《大清历朝实录》等电子文献。北京爱如生数字化技术研究中心是大陆很有实力的古籍数字化专业公司,它制作完成的数字化古籍总数在3万种以上,是目前大陆制作数字化古籍最多的公司。同时,一些大型的网站也在开发古籍数字化的工作。比如,国学网依托首都师范大学组织国内一批文史专家,经过长达多年的资料搜集,电子化校勘, 建成了一个总字数达8亿的大型中华古籍全文数据库——《国学宝典》。

二、中文古籍数字化存在的问题

1.版本众多,底本的选择优劣不一

中华民族文化源远流长,各种典籍版本众多,仅《红楼梦》的版本就可分为两个系统:一是八十回抄本系统,题名《石头记》,大都附有脂砚斋评语,又名“脂本”系统。另一种是一百二十回本系统,即程高本,有所增删。 这两个系统中又有甲戌本、乙卯本、庚辰本、戚序本等等。古人强调,“书非校不能读也”。因此在进行古籍数字化时如何选择善本作底本,同时也要和其他的一些版本精心校对拾遗补阙等。并且由于保存条件以及纸张本身的原因,各种善本藏书很多已经受到了损毁,字迹不清、残缺等等现象严重。

2.缺乏统一的协调机构及着录规则

从2002年开始,中国科学院文献情报中心、中国科学技术信息研究所等21家单位制定了一些与中文古籍数字化相关的标准和规范,如:《古籍描述元数据着录规则》、《古籍描述元数据规范》、《舆图描述元数据着录规则》、《舆图描述元数据规范》、《拓片描述元数据着录规则》、《拓片描述元数据规范》、《家谱描述元数据着录规则》、《家谱描述元数据规范》等等。但各馆及数字资源生产商都是各自为战,给将来的统一检索留下隐患。因此,古籍数字化工作亟须一套完整的标准规范。

3.古籍数字化过程中的相关技术问题

汉字的处理是古籍数字化工作的重点和难点问题。这与电子文本需要字库支撑的特点有直接的关系,而字库中汉字容量是有限的。古籍中众多繁体字、异体字、通假字、避讳字的存在,前人编撰古籍技术的不规范,都使计算机的文字编码不敷应用。目前业界大多采用Unicode作为文字处理的标准,但Unicode定义的汉字也只有7万多,并不能囊括现有古籍中的全部汉字,可以说缺字是古籍数字化的瓶颈。

OCR虽然是一种较为先进的自动化信息资源输入技术,但对图像质量、文字规范化程度要求较高,在对近现代文献的数字化工作中应用较广。由于古籍普遍存在字迹模糊,墨点、污渍和霉斑较多的特点,如果在OCR处理过程中,不能有效识别这些信息,在电子文本上就会留下大量乱码和不规则暗痕。部分手抄本古籍则无法通过OCR识别原文内容。

三、关于古籍数字化的相关建议

1.加强古籍数字化标准的研究和制定工作

要想建立一个完整的中国古籍数据库,使用户一上机就能纵览古籍全貌,按图索骥,用其所需,就要实行统一的、行之有效的机读目录格式,重视统一标准的研究和制定工作,是古籍数字化资源共享首先要解决的问题。古籍数字化只有在题名、编着人、卷册页码、刻工、文献形态等条目上 实现系统完善的着录,执行统一的分类标准和分类原则,才有可能使制作出来的产品易于读者操作和便于读者访问,实现古籍数字化成果和价值真正意义上的资源共享。这些标准的制定不仅要由图书情报界、信息产业界和与标准相关的软件开发商参与而且也要有从事古籍整理的专业人员参与,只有这样才能为读者提供一个共享古籍文献的统一平台。

2.慎重选择底本,搞好古籍资源库建设,实现古籍档案检索网络化

在底本的选择上,慎之又慎,优中选优,善本的损毁程度直接决定了所制作的电子产品的优劣,所以如何选择底本,应以善本为要。善本,通俗的说,就是古书中保存较好的书。善本是我国珍贵的文化遗产的一部分,合理利用,认真选择,利用电子版本保存更加有利于我国文化遗产的保存。

3.提高人员素质

从事古籍数字化工作的人员既要掌握古籍整理的专业知识,又要精通现代信息技术。因此古籍资料数字化是传统学术方法与现代科学技术的结合。要确保古籍数字化工作的顺利开展,急需培养一批既具备古籍整理知识又能熟练应用现代信息技术的高层次复合型人才,不仅要意志坚定,不为金钱名利所动,而且要具有一定的文化修养和崇尚科学的精神。

参考文献:

1.毛建军.古籍数字化的概念与内涵[J].图书馆理论与实践,2007(04).

2.郝淑东,张亮,冯睿.古籍数字化的发展概述[J].情报探索,2007(07).

3.毛建军.欧美地区中文古籍数字化概述[J].数字与缩微影像,2008(01).

4.孟忻.古籍数字化的现状与发展方向[J].中国索引, 2008(01).

5.黄显功.上海图书馆的家谱数字化资源服务——古籍保护效果的一个实例[J].图书馆学刊, 2008(01).

古籍数字化范文第5篇

关键词:化保护系统,建模方法,Erwin模型,逻辑模型,物理模型

 

1.引言

中国少数民族古籍是中华民族文化的重要组成部分,其数量之多,内容之丰富,为世界罕见。但是随着历史的发展,民族古籍遭到了不同层次的破坏[1]。为了及时保护民族文化,对民族古籍文献进行数字化保护是很必要的,在民族古籍文献数字化保护技术项目中数据库和数据库管理系统是重要组成部分。在本系统的设计中,以Erwin数据库建模软件作为后台数据库的建模工具,同时以此软件直接导出数据库的框架结构(建立相应的表)。

2.Erwin模型

数据库的设计包括两个组成部分:逻辑设计和物理设计。逻辑数据库包括使用数据库组件(如表和约束)为业务需求和数据建模,而无需考虑如何或在哪里物理存储这些数据。物理数据库设计包括将逻辑设计映射到物理媒体上、利用可用的硬件和软件功能使得尽可能快地对数据进行物理访问和维护,还包括生成索引。逻辑模型(Logical Model)又称为信息模型是用来支持业务领域的数据结构和业务规则的规范,它表示一套业务信息的需求。逻辑建模是描述信息结构和捕获业务规则的过程,是系统设计的重要组成部分。通过逻辑模型,我们不仅能获得逻辑数据库的思想,而且也能实现对系统一个好的形象描述。其中有一些不同类型的图形:实体、属性、关系和其他描述业务规则的符号[2]。

在开发民族古籍数字化保护系统时,Erwin优秀的数据库开发CASE工具。无论使用什么类型的DBMS,绘制数据库Erwin模型都是有用的。采用Erwin进行数据库设计的优点体现在下面几点:

(1)易用,Erwin的拖放(Drag-and-drop)功能使得只需单击相应的图标后,再在绘图窗口单击即可创建E-R图。免费论文参考网。该功能使得用户能够快速地创建实体及其属性、表、列和其他模型对象。还能在E-R图上进行快速编辑。

(2)数据库实施,Erwin的设计可针对不同目标数据库的物理特性进行优化。Erwin在数据库设计和数据库之间建立起强大的专门连接,能自动生成表、试图、索引等数据库元素。Erwin包括一整套优化的参照完整性触发器模板和丰富的宏语言,用于定制触发器和存储过程。Erwin可通过两种方式完成数据库实施一种方式是直接生成数据库,另一种方式是生成数据库脚本(DDL)。还能够根据物理模型的变更自动对数据库和数据库脚本进行更新。

(3)方向工程,Erwin能够通过实际的数据库或者DDL脚本生成物理模型或逻辑/物理模型。因此用户可以利用这个特性快速进行数据库再工程。

(4)易管理性。Erwin可通过创建数据集合这样的方式来完成对大型的企业数据库的构建数据集合能够作为主题区域(subject areas)被快速创建,这样的方式使得创建的商业数据模型比较容易理解。

(5)环境集成。Erwin能够在不同的平台上实现交易系统、数据中心、数据仓库的设计。Erwin支持流行的桌面数据库和SQL数据库。由于Erwin能够自动将数据类型和SQL文法与目标服务器进行匹配,所以数据模型能够在不同的平台得到重用。

2.1Erwin框图

用Erwin做逻辑模型的主要好处之一是容易使用,它能产生一个概述逻辑模型工作的框图。Erwin框图主要由三种元素组成――实体、属性和关系,如图1所示。免费论文参考网。如果我们把框图看成是表达业务语句的图形语言,那么实体是名次,属性是形容词或修饰,关系是动词。免费论文参考网。用Erwin构建逻辑模型是一件简单的事情――找出正确的名次、动词、形容词集,并放在一起。

2.1.1实体及属性

在Erwin框图中,实体由一个带有名字的方框来表示,实体的所有属性在框内。如图1中的古籍实体由古籍ID、古籍类别、中图分类号、文种类型等属性组成。

2.1.2键和非键属性

实体框图中的水平线把属性分为两部分:键和非键。线上的叫做键区,线下的叫做数据区。标识实体的属性集称实体的键。键属性本身是单独一个属性、或者多个属性的集合,形成对实体的唯一标识符。如古籍实体的键属性是古籍ID,讲唱实体的键属性也是古籍ID,其中古籍实体中的古籍ID是讲唱实体外键属性。

无论何时,在Erwin框图中的实体通过关系来连接,关系传递键给子实体,外键属性定义为父实体的主关键字属性,通过关系传递给子实体。在模型中外键属性通过属性名后的(FK)来表示。如图1中讲唱实体中古籍ID 、语言类型和体裁类型属性为外键属性。

图1 逻辑模型的组成元素

2.2库结构的自动生成

使用Erwin工具可以实现将已建好的ER模型到数据库物理设计的转换,通过选择合适的数据库,即可在多种数据库服务器(如Oracle)上自动生成库结构,提高了数据库的开发效率,如图2所示是为Erwin模型选择数据库。

图2逻辑模型转换时的数据库服务器选择

当Erwin中库结构或客户端应用发生变化时,可以使用Erwin的客户端同步功能方便地使Erwin和客户端应用保持同步,从而保证了数据库前后台的一致性。

利用Erwin建模工具可以把ER模型的物理模型转换成具体数据库的逻辑结构,从而支持数据库的分析设计阶段到数据库的实现和运行阶段的平滑转换和无缝集成[3],便于客户端的同步维护和升级。

3.结语

随着信息化的发展,民族古籍文献数字化保护系统研究有很重要意义。如何有效地设计和管理数据库将直接关系到系统建设的成败。用Erwin数据建模方法建立数据的逻辑模型,描述系统需求和规则,并根据具体的实现环境,转换成数据库的物理模型。通过使用Erwin数据库设计技术,除了产生一致的,可共享的数据库,还可以极大地降低开发和维护的费用。

通过对民族古籍数字化保护系统的数据建模方法的研究,提供了逻辑模型到物理模型的建立方法。对以后的系统开发提供了依据。同时Erwin是一个非常强大的开发工具,熟练掌握它可以大大提高数据库开发的效率,节省工作时间。

参考资料:

[1]国家民委全国少数民族古籍整理研究室,中国少数民族古籍总目纲要。

[2]萨师煊,王珊.数据库系统概论. 北京:高等教育出版社,2000。

[3]王经卓,刘永生.丁兆奎等,关系数据库的建模技术研究,淮海工学院学报。

[4]廖海红,吴春英.基于Erwin的联通经营分析系统的模型设计,大众科技,2005年第7期

[5]王经卓,基于Erwin模型的ERP系统研究,微计算机信息,2006年第22卷。

[6] JohnW.Satzinger etc.著SystemsAnalysis and Design ,机械工业出版社。

相关期刊更多

古籍整理研究学刊

统计源期刊 审核时间1-3个月

教育部全国高校古籍整理研究工作委员会

内蒙古统计

省级期刊 审核时间1个月内

内蒙古自治区统计局

国际骨科学

统计源期刊 审核时间1个月内

上海市卫生健康委员会