基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法  被引量:3

Text feature extraction method for sentiment analysis based on order-preserving submatrix and frequent sequential pattern mining

在线阅读下载全文

作  者:陈鑫 薛云[1,3] 卢昕 李万理 赵洪雅 胡晓晖[1] CHEN Xin1,2, XUE Yun1,3. , LU Xin1, LI Wan-li1 , ZHAO Hong-ya2 , HU Xiao-hui1(1. School of Physics and Telecommunication Engineering, South China Normal University, Guangdong 510006, Guangzhou, China; 2. Shenzhen PolyTechnic, Shenzhen 518055, Guangdong, China; 3. Guangdong Provincial Engineering Technology Research Center for Data Science, Guangdong 510006, Guangzhou, Chin)

机构地区:[1]华南师范大学物理与电信工程学院,广东广州510006 [2]深圳职业技术学院,广东深圳518055 [3]广东省数据科学工程技术研究中心,广东广州510006

出  处:《山东大学学报(理学版)》2018年第3期36-45,53,共11页Journal of Shandong University(Natural Science)

基  金:全国统计科学研究项目(2016LY98);广东省科技计划项目(2016A010101020;2016A010101021;2016A010101022);深圳市科创委基础研究项目(JCYJ20160527172144272);广东省数据科学工程技术研究中心课题项目(2016KF09;2016KFl0);广东科学技术职业学院科研项目(XJSC2016206);华南师范大学研究生创新计划资助项目(2015lkxm37)

摘  要:特征提取是进行文本情感分析的关键步骤之一,是影响其结果好坏的主要因素。针对网络评论语句中表达形式多变的特点,结合语义相似度计算得到近义词TF-IDF(term frequency—inverse document frequency)权重向量;根据评论语句长短不一的特点,基于OPSM(order-preserving submatrix)双聚类算法挖掘出权重向量中的局部模式;使用改进的Prefix Span算法挖掘分类频繁短语特征,这类特征能有效利用词语的顺序信息,同时也通过词语间隔等限制来提升频繁短语区分情感倾向的能力。最后将该方法用于处理商品评论语料,并进行情感分析任务实验,结果表明所提取的文本特征效果有较大的提升。Feature extraction is one of the key steps in text sentiment analysis,which is also the main factor that affects the result.According to the variant expression of online review,the synonyms TF-IDF(term frequency-inverse document frequency) weight vector is obtained based on the semantic similarity. Then in viewof the different length of online review,the local patterns of the feature vectors are identified with OPSM(order-preserving submatrix) biclustering algorithm. We improve Prefix Span algorithm to detect the frequent classification phrase feature,which contain word order information. Furthermore some important factors,such as the separation of word,are also employed to improve the discriminative ability of sentiment orientation. Finally,the proposed method is applied to the sentiment analysis task experiment of the product reviews,and the results showthat the text feature extraction has a better performance.

关 键 词:特征提取 情感分析 双聚类 频繁短语特征 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象