语义信息与CRF结合的汉语功能块自动识别  被引量:4

Chinese Functional Chunk Parsing Employing CRF and Semantic Information

在线阅读下载全文

作  者:刘海霞[1] 黄德根[1] 

机构地区:[1]大连理工大学计算机科学与技术学院,辽宁大连116024

出  处:《中文信息学报》2011年第5期53-59,共7页Journal of Chinese Information Processing

基  金:中央高校基本科研业务费专项资金资助(DUT10RW202)

摘  要:为了构建汉语功能块自动识别系统,该文利用条件随机域模型对经过正确词语切分和词性标注处理的汉语句子进行功能块边界识别和功能信息标注处理,通过在特征提取阶段优化组合丰富的上下文特征,得到功能块识别的精确率、召回率和F1-measure值分别为85.84%、85.07%和85.45%。在此基础上,该文引入由词义聚合关系将汉语单词组织起来的《同义词词林》作为语义资源,把其中的语义信息作为特征加入到功能块的识别过程,缓解了数据稀疏以及歧义问题对识别结果造成的影响,使得上述三个性能指标分别提高到86.21%、85.31%和85.76%。We focus on building a system for labeling Chinese functional chunks automatically,through detecting the boundary of Chinese functional chunks and labeling the functional information in a sentence with correctly word segmenting and POS tagging.This paper proposes an approach that combines the feature template optimizing strategy with Conditional Random Field Model for labeling Chinese functional chunks automatically.On the testing data set,the precision,recall and F-1 measure of Chinese functional chunks reaches 85.84%,85.07% and 85.45% respectively.On the basis of that,existing language resources Chinese thesaurus "Tongyici Cilin" is introduced into the processing module,from which the semantic information will be added to the feature template to remit the effect of data sparseness and ambiguous problem.In this case,the three performance indexes are increased to 86.21%、85.31% and 85.76% respectively.

关 键 词:汉语功能块 条件随机域(CRFs) 语义信息 歧义结构 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象