中文分词中组合型切分歧义的消解研究  被引量:1

Research on combinational ambiguity strings in Chinese word segmentation

在线阅读下载全文

作  者:尤慧丽[1] 晏立[1] 杨晓东[1] 

机构地区:[1]江苏大学计算机科学与通信工程学院,江苏镇江212013

出  处:《计算机工程与应用》2011年第31期125-127,134,共4页Computer Engineering and Applications

摘  要:针对中文自动分词中组合型歧义消解难的问题,提出了一种新的切分算法来对组合型歧义字段进行消歧。该算法首先自动从训练语料中提取歧义字段的上下文信息来建立规则库,然后利用C-SVM模型结合规则对组合型歧义字段进行歧义消解。最后以1998年1月《人民日报》语料中出现的组合型歧义字段进行训练和测试,实验显示消歧的平均准确率达89.33%。Combinational ambiguity is one of the most difficult problems in Chinese word segmentation.The paper discusses a new segmentation algorithm to solve the combinational ambiguity.The algorithm automatically extracts contextual information of the combinational ambiguity to establish rules,then uses the C-SVM model and these rules to solve the combinational ambiguity.The People Daily corpus of January 1998 is used in training and testing,and the average accuracy is 89.33%.

关 键 词:中文自动分词 组合型歧义 上下文信息 C-支持向量机 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象