检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]哈尔滨工业大学计算机学院信息检索研究室哈尔滨150001
出 处:《高技术通讯》2009年第2期111-118,共8页Chinese High Technology Letters
基 金:863计划(2006AA012145);国家自然科学基金(60435020,60503072)资助项目
摘 要:针对问题分类的数据稀疏问题,提出了一种以疑问词和焦点词为关键线索的中文事实型问题分类方法。该方法首先自动识别用户提出的问题中的疑问词和焦点词,若疑问词和焦点词存在,则用最近邻模型进行分类,而对没有用最近邻方法分类的其他问题,则用支持向量机(SVM)模型进行分类。训练SVM模型时,从Web上自动获取新问题来对训练集进行扩展,最近邻方法只利用线索词词义距离进行类别判断。实验表明,这种按照问题结构的不同而选择不同分类器的方法,在性能上要优于单一分类方法;词义距离的应用和训练集自动扩展改善了训练数据的稀疏,提高了分类性能。In view of the data sparseness problem in question classification, the paper proposes an approach for classifying Chinese factoid questions using interrogative and focus words as the key cues. The approach first identifies interrogative and focus words in the questions raised by users autometically and classifies the questions using the nearest neighbor model if the cue words exist, and then, classifies other questions using the support vector machine (SVM) model. The training set of SVM is extended automatically with the questions mined from Web when training the SVM model, while for the nearest neighbor model, ordy using the sense distance of the cue words for classification judg^nent. The experimental results show that the approach, selecting different classifiers according to question structure, outperforms the single classification model, and the problem of training data sparseness is alleviated using the word sense distance and the extension of training set, thus the classification performance is improved.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.117.135.125