检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]大连理工大学计算机科学与技术学院,辽宁大连116024
出 处:《中文信息学报》2011年第5期53-59,共7页Journal of Chinese Information Processing
基 金:中央高校基本科研业务费专项资金资助(DUT10RW202)
摘 要:为了构建汉语功能块自动识别系统,该文利用条件随机域模型对经过正确词语切分和词性标注处理的汉语句子进行功能块边界识别和功能信息标注处理,通过在特征提取阶段优化组合丰富的上下文特征,得到功能块识别的精确率、召回率和F1-measure值分别为85.84%、85.07%和85.45%。在此基础上,该文引入由词义聚合关系将汉语单词组织起来的《同义词词林》作为语义资源,把其中的语义信息作为特征加入到功能块的识别过程,缓解了数据稀疏以及歧义问题对识别结果造成的影响,使得上述三个性能指标分别提高到86.21%、85.31%和85.76%。We focus on building a system for labeling Chinese functional chunks automatically,through detecting the boundary of Chinese functional chunks and labeling the functional information in a sentence with correctly word segmenting and POS tagging.This paper proposes an approach that combines the feature template optimizing strategy with Conditional Random Field Model for labeling Chinese functional chunks automatically.On the testing data set,the precision,recall and F-1 measure of Chinese functional chunks reaches 85.84%,85.07% and 85.45% respectively.On the basis of that,existing language resources Chinese thesaurus "Tongyici Cilin" is introduced into the processing module,from which the semantic information will be added to the feature template to remit the effect of data sparseness and ambiguous problem.In this case,the three performance indexes are increased to 86.21%、85.31% and 85.76% respectively.
关 键 词:汉语功能块 条件随机域(CRFs) 语义信息 歧义结构
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222