多变参pLSI文本敏感特征抽取算法  被引量:2

Multi variables p LSI for text sensitive feature extraction

在线阅读下载全文

作  者:李卫平[1,2] 杨杰[1] 王钢[2] 

机构地区:[1]武汉理工大学信息工程学院,武汉430070 [2]铁道警察学院公安技术系,郑州450053

出  处:《计算机应用研究》2015年第9期2587-2589,共3页Application Research of Computers

基  金:国家公安部重大项目基金资助项目(201202ZDYJ017);河南省教育厅科学技术研究重点资助项目(14A520011)

摘  要:敏感词等特征的抽取是社交网络敏感话题分析的关键环节。目前热门的概率主题模型在社交网络敏感话题分析领域,受到特征语义复杂以及高噪声的影响,处理性能不够理想。提出了一种多变参概率潜在语义索引(p LSI)算法,可以利用社交网站标签、文本表情图片等多种辅助信息提高特征抽取的效果。实验数据显示,该算法有较高的分类准确率和较低的时间开销。该算法是理想的降维算法,适用于社交网络的敏感特征抽取。Sensitive features extraction is a key issue of sensitive topic analysis in social networks. When face to the sensitive topic analysis task in social networks ,the performance of probabilistic topic models are not ideal because too many noises are existed and the sensitive features always have high semantic complexity. This paper proposed a multi variables pLSA( probabi- listic latent semantic indexing)algorithm which could use tag words and emoticons icons to improve the precision of feature ex- traction. Experimental result shows that the proposed algorithm has high precision and low time consumption. The novel method is an ideal dimension reduction tools and suitable for sensitive features extraction in social networks.

关 键 词:特征抽取 敏感特征 潜在概率语义索引 多变参 话题分析 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP301.6[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象