基于线索词识别和训练集扩展的中文问题分类  被引量:6

Chinese question classification based on identification of cue words and extension of training set

在线阅读下载全文

作  者:张志昌[1] 张宇[1] 刘挺[1] 李生[1] 

机构地区:[1]哈尔滨工业大学计算机学院信息检索研究室哈尔滨150001

出  处:《高技术通讯》2009年第2期111-118,共8页Chinese High Technology Letters

基  金:863计划(2006AA012145);国家自然科学基金(60435020,60503072)资助项目

摘  要:针对问题分类的数据稀疏问题,提出了一种以疑问词和焦点词为关键线索的中文事实型问题分类方法。该方法首先自动识别用户提出的问题中的疑问词和焦点词,若疑问词和焦点词存在,则用最近邻模型进行分类,而对没有用最近邻方法分类的其他问题,则用支持向量机(SVM)模型进行分类。训练SVM模型时,从Web上自动获取新问题来对训练集进行扩展,最近邻方法只利用线索词词义距离进行类别判断。实验表明,这种按照问题结构的不同而选择不同分类器的方法,在性能上要优于单一分类方法;词义距离的应用和训练集自动扩展改善了训练数据的稀疏,提高了分类性能。In view of the data sparseness problem in question classification, the paper proposes an approach for classifying Chinese factoid questions using interrogative and focus words as the key cues. The approach first identifies interrogative and focus words in the questions raised by users autometically and classifies the questions using the nearest neighbor model if the cue words exist, and then, classifies other questions using the support vector machine (SVM) model. The training set of SVM is extended automatically with the questions mined from Web when training the SVM model, while for the nearest neighbor model, ordy using the sense distance of the cue words for classification judg^nent. The experimental results show that the approach, selecting different classifiers according to question structure, outperforms the single classification model, and the problem of training data sparseness is alleviated using the word sense distance and the extension of training set, thus the classification performance is improved.

关 键 词:问题分类 焦点词 词义距离 训练集扩展 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象