首页 > 文章中心 > 正文

条件随机域的生物医学命名识别

条件随机域的生物医学命名识别

1背景

随着生物医学技术的迅速发展,生物医学文献的数量也急剧增加。研究人员如何才能从海量的自然语言文本中获得所需信息呢?当今人们普遍采用文本挖掘(TextMining)技术来解决这一问题。文本挖掘的第一步是命名实体识别(NamedEntityRee铭nition,NER)。在生物医学领域NER工作比普通领域困难得多,州LPBAZoo4任务I’l的公开测评结果表明,在GEN认[2]语料集上最好的系统也只能达到72.6%的F一score,离可以应用的水平还有很大的差距。目前的生物医学命名实体识别的方法主要有基于字典和机器学习的方法。机器学习方法能够识别未登陆词,并且可以根据上下文环境对己经登陆词给出更准确的答案。因此越来越被人们所重视,大量的模型应用于该领域,。而其中最具优势的是既拥有马尔科夫链结构,又适合于处理复杂稀疏特征的条件随机域模型。从JNLPBA2004测评的结果分析,系统I3j只使用了很少种类的特征,没有使用任何专业词典,F一score就达到了69.8%,而该实验使用的模型正是条件随机域。

2条件随机域

条件随机域(ConditionalRandomFields,c),是计算具有无向图G结构的随机变量集合s在给定随机变量集合。下的条件概率P(s}o)。将CRF应用于命名实体识别中,则0表示一个句子的单词序列,S表示相应的状态序列,标注的过程就是根据己知的单词序列推断出最有可能的状态序列,即P(s}o)的最大值。本实验使用了一阶线性C盯。表明当前句子中第i个位置上是否具有第k个特征,并且取决于当前状态s,和前一个状态si-,•凡是特征的权重,通过训练得到。

3实验

3.1特征选择

本实验借鉴了JNLPBA2004任务中各系统的部分特征,同时选取了一些新特征。共分为9类:单词本身(Fl):将所有的单词都转化成小写字母。构词特征(F2):包括首字母大写,所有字母大写,是否包含横线,是否是数字等。词缀特征(F3):对每个单词都取了3个和4个字符的前缀,以及3个和4个字符的的后缀。词形特征(F4):将大写字母替换成A,小写字母替换成a,数字替换成O,特殊符号替换成x。特征联合(F5):将相邻位置的特征进行联合,得出新的特征,有助于识别长距离词。本实验选择窗口的大小为(-1,十l)。词性标记特征(F6)和短语切分标记特征(F7):本实验使用GENIATa朗er对训练语料和测试语料进行标注,得到相应的词性标记和短语切分标记作为特征。关键词特征(F8):实验中统计了训练集的命名实体中出现20次以上的1一gram和2一gram的关键词,将这些词是否出现作为特征。边界词特征(F9):从结果的统计中发现,相当多的错误都是发生在边界。因此,本实验统计了训练集中的边界词,取出现5次以上的作为特征。

3.2可以看出随着训练语料的增加,后期的F一score趋于平缓,提高的幅度很小,一半的语料儿乎没有被利用。可以预计,如果训练集再增加2000篇文章,还采用当前的方法,效果仍然不会有太人的改善。另一个值得注意的现象是,随着训练语料的增多,对训练集本身的标注效果有明显的降低,见图2。原因之一可能是由于有过多的特征是针对未登陆词的,从而影响了已经登陆词的识别;另一个原因则是语料本身的错误,尤其是标注不一致。有文献统计过生物医学文献人工标注的正确率在87%一89%之间,但从本实验的结果推测,GENIA中的标注正确率应高于90%。此外,语料标注错误对机器学习方法的影响相对较小,统计的方法可以忽略极个别的错误;如果在训练集中的标注错误类型基本一致,只是通过学习错误的语料标注同样错误的数据,并不影响机器学习的效果。总之70%左右的F一score不能仅仅用语料的错误来解释。但从曲线的趋势可以推测,仍使用当前的方法,无论使用多大的语料进行训练,F一score都不会超过92%。

3.3边界判定问题

边界判定不准确是生物医学命名实体识别面临的最主要问题,经统计发现38%的错误是发生在边界上。生物医学命名实体的边界判定是一个极其复杂的问题。本实验采用CRF进行二次标注,集中解决左边界问题。即固定了右边界,对左边届从新进行判断。首先把第一次标注的命名实体分为己确定和未确定的部分,左边界词以及它前面和后面一个词是未确定的,其它词都是己确定的。对已经确定的部分只赋予一个特征,就是第一次标注的结果,对未确定的部分赋予以下特征:

1.词汇特征:l一gram,2一gram项。

2.关键词特征:与第一次标注相同。

3.边界词特征:同上。

4.词性标记,短语切分特征:同上。

5.核心名词特征:假定右边界正确,把右边界词当作核心名词,如:purifiedhumane明hro记co!ony一formingcells,cells就作为核心名词。对于判断前面词的类别起着重要的作用,尤其当名字很长的时候。这个特征在第一次标注的时候由于没有判断出右边界而无法得到。

6.特征联合:将特征1的卜gram项和特征5联合。然后将不同的结果利用Google进行裁决,仅仅利用简单的规则:如果较长的实体名长度不大于3,且返回网页数超过10就算正确,否则选取较短的实体名;如果长度大于3且无不匹配的括号,则遵循第二次标注的结果,否则依照第一次结果。在F一score上得到了1%的提高,左边界错误率减少了7.2%。

4总结

本文使用基于条件随机域的方法进行了生物医学命名实体识别的实验,讨论了训练语料规模和不同特征对标注结果的影响,然后使用二次标注的方法处理了边界判定的问题,取得了一定的效果。得出以下结论:对于通过一次机器学习很难处理的复杂的问题,往往可以利用第一次的结果选择新特征进行再学习,这样会逐步缩小范围,便于进一步处理。