用户评论中的标签抽取以及排序  被引量:11

Extraction and Ranking of Tags for User Opinions

在线阅读下载全文

作  者:李丕绩[1] 马军[1] 张冬梅[2] 韩晓晖[1] 

机构地区:[1]山东大学计算机科学与技术学院,山东济南250101 [2]山东建筑大学计算机科学与技术学院,山东济南250101

出  处:《中文信息学报》2012年第5期14-19,45,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(60970047;61103151;61173068);教育部博士点基金资助项目(20110131110028)

摘  要:对于一个实体(产品或者商户),往往伴随着成千上万的用户评论。如何从这些冗杂的评论信息中抽取能够描述此实体的精华信息是研究的热点问题。该文提出了一种能够为每个实体抽取特征标签的方法,并且语义去重,保证标签在语义空间内相互独立。首先,对于每个实体的所有评论,进行中文分词、词性标注,并且做依存句法分析。然后,根据每个句子中的依存关系,抽取关键标签,构成此实体的标签库,并且对标签库进行显式语义去重。最后通过K-Means聚类以及Latent Dirichlet Allocation(LDA)主题模型将每个标签映射到语义独立的主题空间,再根据每个标签相对该主题的置信度进行排序。通过以上步骤,可以为每个实体抽取语义独立的关键标签描述,实验中,该文通过对返回标签列表的准确性以及语义多样性进行了统计分析,验证了标签抽取方法的可行性和有效性。There are usually millions of comments for an entity (e. g. a shop or a product). How to extract the con- sice and useful information to describe the entity is a challenging issue. This paper proposes a method to extract tags without semantic redundancy. First, we perform the word segmentation, POS tagging and dependency parsing for all the comments. Then, we extract tags aeroding to the dependency realtions, and reduce the semantically duplicate tags explicitly. Finally, we map all the tags to the independent semantic space via K-Means and Latent Dirichlet A1- location(LDA), and rank the tag list. according to the topic confidence. The results of the experiments show that our method could extract the tags accurately with semantic independency.

关 键 词:意见挖掘 主题模型 语义独立 标签抽取 排序 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象