中文分词中歧义切分处理策略  被引量:10

Segmentation Strategies on Ambiguity String in Chinese Word Segmentation

在线阅读下载全文

作  者:郑家恒[1] 张剑锋[1] 谭红叶[1] 

机构地区:[1]山西大学计算机与信息技术学院计算智能与中文信息处理省部共建教育部重点实验室,山西太原030006

出  处:《山西大学学报(自然科学版)》2007年第2期163-167,共5页Journal of Shanxi University(Natural Science Edition)

基  金:国家自然科学基金(60473139);山西省自然科学基金(20051034)

摘  要:文章试图从歧义字段本身的特点,即从伪歧义与真歧义这两个角度,以规则库为辅助手段,构建相应概率统计模型来解决歧义字段切分的问题.概率模型中特征的选取考虑了相邻词语和相邻词语的语义信息.实验表明该模型在解决歧义切分问题上是有效的.We build a probabilistic statistical model combined with a rule base to solve the problem. The model is built based on the characters of ambiguity strings, including true-ambiguity and pseudoambiguity,and the semantic information of the neighboring words is considered in the feature selection. The relative experimental results show that the model is effective in the segmentation of ambiguity string.

关 键 词:自动分词 伪歧义 真歧义 概率模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象