首页 > 文章中心 > 正文

内容管理

内容管理

摘要:信息化的不断推进,使人们几乎要淹没于信息海洋中,如何有效利用这些信息,从中发掘有用的东西,使之最大限度发挥其应有的作用,是目前研究的热点,内容管理因此应运而生。本文首先介绍了内容管理的概念及其和知识管理的区别,然后分析了内容管理系统的功能结构和支持内容管理许多重要技术,最后把Redhat的CMS作为内容管理系统的成功范例进行了介绍,为内容管理系统的研究开发提供了良好的参考和指导。

关键词:内容管理知识管理信息检索文本挖掘Web挖掘多媒体挖掘

Abstract:Thecontinuousadvanceofinformationtechnologysothatpeoplecanalmostdrownedintheseaofinformation,howtoeffectivelyusetheinformation,findsomethingusefultomakeittomaximizeitsroleiscurrentlyahotresearch,contentmanagement,thereforecameintobeing.Thisarticlefirstintroducedtheconceptofcontentmanagementandknowledgemanagementanditsdistinction,andthenanalyzesthecontentmanagementsystemtosupportthecontentmanagementstructureandanumberofimportanttechnologies,andfinallytoRedhatofCMScontentmanagementsystemasasuccessfulexampleintroducedforcontentmanagementsystemresearchanddevelopmentprovidesagoodreferenceandguidance.

Keywords:ContentManagementKnowledgeManagementInformationRetrievalTextMiningWebMiningMultimediaMining

1基本概念

1.1内容管理

随着计算机技术和Internet技术的迅猛发展,当今世界正处在一个信息爆炸的时代,GartnerGroup的一个调查显示:平均每个知识员工每个星期在不增值的相关文档处理任务上需要花费8个小时,包括文档的创建、寻找、整理等。ForresterResearch的一个调查显示:企业的信息内容量在以每年200%的速度增长。

一方面是低下的内容处理效率,另一方面是不断膨胀的内容量。简单的事实对比体现了企业一个迫切的需求:需要有效地将内容管理起来。

内容管理由两部分组成,“内容”强调对象,而“管理”则强调方法。内容是任何类型的数字信息的结合体,是一个比数据、文档和信息更广的概念;管理就是施加在“内容”对象上的一系列处理过程,包括收集、确认、批准、整理、定位、转换、分发、更新、存档等,目的是为了使“内容”能够在正确的时间、以正确的形式传递到正确的地点和人。

内容管理就是协助组织和个人,借助信息技术,实现内容的创建、储存、分享、应用、更新,并在企业个人、组织、业务、战略等诸个方面产生价值的过程。内容管理系统就是能够支撑内容管理的一种工具或一套工具的组合。

1.2内容管理与知识管理的比较

知识管理也是目前一个研究的热点,内容管理和知识管理之间既有联系也有区别,比较全面的讲,主要有两点不同、一个相同和一种联系。

第一点不同,两者的管理对象不同。前者是“内容”,后者是“知识”。

第二点不同是指两者在管理功能上有所不同,知识管理不仅仅在于对静态知识(知识库)的管理,还包括对动态知识过程的管理,尤其是对知识创新过程的管理。内容管理某种程度上主要是对知识关联化过程的管理,即将分散混乱的数据、信息转化成有组织的内容和知识,基本上不具备对默会知识的管理功能。

内容管理和知识管理在管理机制上具有相同点,它们都是一种集成了人、过程以及技术的“技术—社会”系统,同样需要强调共享的文化、规范清晰的管理过程以及良好的技术支撑。

内容管理和知识管理的一种联系,主要表现在内容管理可以作为知识管理一个基本组成。

2内容管理系统的功能结构

为了真正发挥内容管理的作用,作为一个完整的内容管理系统应该包括以下几个部分:内容仓库、内容搜索引擎、内容管理功能模块、用户接口以及内容访问设备等。

图1内容管理系统的概念结构

(1)内容仓库用以存储各种形式的内容,如文档、视频、声频文件等。

(2)内容搜索引擎是内容管理系统的核心功能模块,用以帮助使用者快速定位所需内容,按照搜索方法可分为全文搜索、上下文搜索等。现在更先进的检索技术还包括智能化知识检索技术,自然语言查询等。

(3)内容管理模块是内容管理系统的主要功能模块,用以提供对内容管理过程的支持,包括:

内容创建和编辑,用以实现各种数据、信息、文档和程序的获取并提供创建内容的协作工具,如文档和网页制作工具,数据转换(MetadataandXML)工具等。

内容个性化,内容的个性化是内容管理区别于传统文档管理的一个重要特征,包括根据用户喜好的用户控制个性化、根据内容相关性的数据控制个性化等。

存档管理,用以实现安全存贮、管理各种形式的内容。

工作流,用以实现用户自定义的流程和基于角色的流程控制、审批流程等。

安全控制,包括数据库安全控制、加密,拷贝和传播限制等。

生命周期管理,主要是指对内容版本的控制,如多版本控制、版本跟踪等功能。

(4)用户接口模块包括传统的非Web方式的图形用户界面GUI以及新近发展起来的企业信息门户EIP等各种方式,EIP将成为未来用户接口的主导方式。

(5)内容访问设备包括客户计算机以及PDA、移动电话等移动型设备。

一个内容管理系统的开发就应该以实现上述功能结构为目标。

3支持内容管理的技术

内容管理属于智能信息处理的范畴,自从计算机出现开始,信息处理技术就始终在发展,在改进老技术的同时,新技术在探索,因此,内容管理有众多技术可以作为支撑。

过去40多年来,处理结构化信息,如域和记录、行和列的工具和技术不断得到发展,从数据库、数据仓库到数据挖掘。近10年来还出现了一系列新技术,这些技术致力于处理文档的非结构化信息。业界分析家报告说,有90%的可用信息是非结构化数据。

目前的内容管理解决方案具备了检索、工作流、版本控制等基本功能,处理的智能性尚还不高。随着内容管理中技术应用的深化,更多智能手段将被引入,如文档自动分类技术、文本挖掘、Web挖掘、portal等技术。今后,必然还会发展出更智能化的内容处理技术,如语义分析、自然语言理解、智能等,它们会把内容管理推向深入。

以下介绍几个典型的技术,它们将是未来内容管理技术的主流:

(1)Portal

Portal(门户技术)是结合各种有用的信息资源成为单一的和应有尽有的网站的一个方法,以帮助用户避免因信息泛滥而不知所措或产生网上迷失感,其根本思想就是只要从这扇门进入,就可以

知道任何你想要的东西,许多知名门户网站就是以此为指导思想。Oracle9iASportal是这个技术应用的典型代表。

(2)文本挖掘与检索

要在海量的非结构化文档中又快、又准、又全地找到用户所需的文档,检索是核心技术,从原理上,检索可以采取两种方案:其一是将文档归入一个有序的结构,再按结构规则提取文档(检索),这种方法也被称为“文本挖掘(textmining)”;另一种方案是不建立结构,在检索时,用户自由地输入检索词或短语,由系统进行匹配,并将匹配到的文档按检索词出现频率的统计规则提供给用户,这就是全文检索。

(3)Web挖掘

Web是一个庞大的、动态的、超媒体结构的包含媒体、文本和其他数据元素的信息集,。也是网络时代内容的主体部分。Web挖掘就是从Web文档、媒体、结构以及用户交互行为中抽取感兴趣的、有潜在价值的模式和隐含信息的过程,是数据挖掘(DataMining)在WWW上的延伸,包括Web内容挖掘、Web结构挖掘和Web使用挖掘。

(4)多媒体挖掘(MultimediaMining)

越来越多的多媒体数据,使得继数据挖掘之后,多媒体挖掘成为新的研究方向。过去大量的研究都集中在基于内容的信息检索方面,在某种程度上解决了信息搜索和信息资源发现的问题。但是,信息检索只能获取与用户要求相关的“信息”,而不能从大量多媒体数据中发现和分析出其中蕴含的有价值的“知识”。多媒体挖掘是比多媒体信息检索更高层次的新方法。一旦将多媒体挖掘技术用于内容管理,对于多媒体文档的管理会产生质的飞跃。

(5)自然语言处理

自然语言处理研究如何能让计算机理解并生成人们日常所使用的(如汉语、英语)语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回答。自然语言理解系统可以用作专家系统、知识工程、情报检索、办公室自动化的自然语言人机接口,有很大的实用价值。

(6)智能

“智能”特别适用于分布计算或客户/服务器环境,在半自动状态下工作。智能可以使人们在搜寻和获取信息领域和互联网络上开发增强服务,可以使人们在搜寻和获取信息的过程中大大节省时间,从而提高工作效率。

随着信息处理技术的不断发展,会有更多的技术可以用于内容管理,提高内容管理系统的效率。

4内容管理系统实例介绍

目前,在内容管理系统的开发方面国外已经比较成熟,许多公司都推出了自己的相关产品,尽管还没有达到智能化管理的程度。比如微软公司就把它的CMServer(内容管理服务器)作为其Backoffice系列产品的一个组件,不过其功能还过于简单,毕竟微软不是做内容管理系统的专业厂商。国内虽然已经有一些公司在进行内容管理系统的研究开发,但与国外还存在较大的差距。

这一部分将简要介绍Redhat公司的内容管理系统(CMS),Redhat不仅致力于Linux的开发,也始终关注内容管理系统的开发,因此它收购了一家做内容管理系统的专业公司,奠定了自己在内容管理系统开发上的地位。以下是RedhatCMS的一些基本概念,了解了这些基本概念就会对它的内容管理的思想有个比较全面的认识。

(1)Contentitem(内容条目):CMS系统管理内容的基本单元。

(2)Contenttype(内容类型):定义一个内容条目的特征。

(3)ContentElement(元素):内容条目的组成部分,元素有两种基本类型:一种是简单的数据,另一种就是条目(因为一个条目可以将其他条目作为自己的内容)。

(4)ContentSection(内容分区):内容分区就是内容的一个集合,包括若干内容条目,一个内容分区可以作为一个独立的内容管理单元。

(5)ContentCategory(内容分类):用于对个内容分区中的条目进行非分类,这样就可以方便用户对内容进行浏览和搜索。

(6)Workflow(工作流):定义内容条目的生产制作过程,它有一组任务(Task)组成,每一组任务分配给不同的人员,从而实现了工作流的管理。

(7)Lifecycle(生存周期):定义内容条目的计划,通常有若干个阶段(Phase)组成。

(8)Template(模板):定义内容条目如何可视化的表现。

(9)Version(版本信息):及时反映出一个内容条目的当前状态信息。

(10)ContentAuthoringKit(内容创作工具箱):内容创作工具箱就是用于对内容的创作,它是和内容类型相对应的,每种类型都有其相应的内容创作工具箱。

在CMS中是以内容分区为单位来组织内容的,每个内容分区若干内容条目组成,每条内容都属于一种预定义好的类型,从而可以使用对应类型的工具箱进行内容的编辑修改,在一个内容分区内,可以对内容条目进行归类,方便了内容的检索。

每一个内容分区都包含了不同角色的成员,他们在一条内容的工作流中完成自己权限之内必须完成的任务,并使内容进入下一流程,如果在一个工作流控制中两个任务之间前后存在倚赖关系,那么在前一个任务完成之前下一任务使无法开始的,在一条内容创作完毕并且通过审批,就可以根据实现定义好生命周期将其出去,实现版本控制。

在一个内容分区内,管理员可以根据需要定义各种角色并赋予权限,再为用户赋予不同的角色使其在工作流中可以分配到任务。一个内容分区可以有一个缺省的工作流和生命周期可用于所有内容,也可以针对具体的一条内容利用模板定义自己的工作流和生命周期。

可见,Redhat的内容管理系统已经具备了自身的一套完整理论体系,在内容的工作流、生命周期、权限管理等方面做的非常好,为其进一步展开智能化内容管理的研究开发奠定了基础,一旦引入前文提到的一些智能化的技术可以构建一个概念非常强大的内容管理系统。

5结束语

随着信息化的不断的推进,对内容管理提出了迫切需求,如何实现从内容中发掘价值,如何使正确的“内容”能够在正确的时间、以正确的形式传递到正确的地点和正确的人,以便做出正确的决策,这是内容管理系统的根本任务。国内外在这一领域的研究方兴未艾,但是还没有形成统一成熟完备的理论体系,因为它涉及到太多的技术。本文从内容管理的概念出发,重点介绍了Portal、文本挖掘与检索、Web挖掘、多媒体挖掘、自然语言处理和智能等一些可以把内容管理推向深层次的技术,并且以Redhat公司的内容管理系统为实例介绍了与内容管理系统开发的一种思路。伴随Internet的进一步发展,内容管理越来越重要,内容管理技术研究也将成为重要的研究课题和方向。

参考文献

1刘颖.计算语言学.清华大学出版社,2002

2技术文档

3李国辉,张军,汤义,挖掘技术直面多媒体——信息爆炸带来新挑战,计算机世界,2002年10月6日第27期