检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]山西大学计算机与信息技术学院,山西太原030006 [2]山西大学计算智能与中文信息处理教育部重点实验室,山西太原030006 [3]山西大学数学科学学院,山西太原030006
出 处:《中文信息学报》2014年第6期175-182,共8页Journal of Chinese Information Processing
基 金:国家自然科学基金(61175067;61272095);山西省科技攻关项目(20110321027-02);山西省回国留学人员科研项目(2013-014)
摘 要:在多对象、多属性的评论文本中,评价对象和评价属性的缺省识别对于观点挖掘有着重要的作用。针对情感观点句中评价对象和评价属性的缺省问题,该文提出一种有效的缺省项识别方法。首先构造缺省项识别规则集,用于获取待识别的缺省项侯选集;将缺省项识别问题看作一个二元分类问题,选用词法和依存句法作为特征,使用决策树分类算法C4.5训练分类器模型,在测试集上对待识别的缺省项进行判别。实验结果表明,使用依存句法特征集分类的F值优于词法特征集约2%。将词法和依存句法两类特征融合与单类特征相比,分类精确率和F值分别提高了10%和5%左右,说明词法特征和依存句法特征的融合有利于缺省项识别。The identification of the default for comment object and coment attribute for opinion mining is important on multi objects, multi attributes review texts. This paper proposes a new method to deal with this issue. At first, the rule set of default item identification is constructed to obtain the candidate set of recognized default item. We treat the identification of the default item as a binary classification problem, and select the lexical and dependency parsing features. We employ the decision tree C4.5 algorithm to train classification model which was used to judge the recognized default item on the testing data. Experimental results show that the F-value of the classification of the dependency syntactic feature set is superior to the lexical feature set about 2%. Compared with the single feature, the accuracy and F-value of the integrating of two feature sets of lexical and dependency parsing increase up to 10% and 5 %, respectively.
关 键 词:缺省项 识别规则 词法特征 依存句法 C4.5算法
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.188.48.106