检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西南大学计算机与信息科学学院,重庆400715
出 处:《计算机工程》2014年第4期159-163,169,共6页Computer Engineering
基 金:国家自然科学基金资助项目(61170192)
摘 要:随着新技术及社会网络的发展与普及,微博用户数据量剧增,与此相关的研究引起了学术界和工业界的关注。针对中文微博语句特点,通过对比多种特征选取方法,提出一种新的特征统计方法。根据构建的词语字典与词性字典,分析支持向量机、朴素贝叶斯、K最近邻等分类模型,并利用证据理论结合多分类器对中文微博观点句进行识别。采用中国计算机学会自然语言处理与中文计算会议(NLP&CC 2012)提供的数据,运用该方法得到的准确率、召回率和F值分别为70.6%、89.2%、78.9%,而NLP&CC2012公布的评测结果相应平均值分别为72.7%、61.5%、64.7%,该方法在召回率和F值2个指标上超过其平均值,而F值比NLP&CC2012评测结果的最好值高出0.5%。With the development and popularity of the new technology and social network, the data volume of micro-blog users surge sharply. Related research causes increasing attention from both academia and industry. This paper proposes a new statistical method on feature extraction. Classification performances of different schemas such as Support Vector Machine(SVM), Naive Bayes and K-Nearest Neighbour(KNN) are analyzed carefully. It proposes a combined model based on D-S theory to take the advantages of different classifiers. A series of experiments based on the Chinese Micro-Blog data provided by CCF NLP&CC 2012 are conducted, and it gets the average estimate 72.7% in precision, 61.5% in recall and 64.7% in F-measure of NLP&CC 2012 as a baseline. Experimental results show that the method can achieve significant enhancement in both recall and F-measure with 70.6%, 89.2% and 78.9%, respectively, and F-measure is even 0.5% higher than the best result of NLP&CC 2012.
关 键 词:微博 观点句 支持向量机 朴素贝叶斯 K近邻 证据理论
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.74