检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李丕绩[1] 马军[1] 张冬梅[2] 韩晓晖[1]
机构地区:[1]山东大学计算机科学与技术学院,山东济南250101 [2]山东建筑大学计算机科学与技术学院,山东济南250101
出 处:《中文信息学报》2012年第5期14-19,45,共7页Journal of Chinese Information Processing
基 金:国家自然科学基金资助项目(60970047;61103151;61173068);教育部博士点基金资助项目(20110131110028)
摘 要:对于一个实体(产品或者商户),往往伴随着成千上万的用户评论。如何从这些冗杂的评论信息中抽取能够描述此实体的精华信息是研究的热点问题。该文提出了一种能够为每个实体抽取特征标签的方法,并且语义去重,保证标签在语义空间内相互独立。首先,对于每个实体的所有评论,进行中文分词、词性标注,并且做依存句法分析。然后,根据每个句子中的依存关系,抽取关键标签,构成此实体的标签库,并且对标签库进行显式语义去重。最后通过K-Means聚类以及Latent Dirichlet Allocation(LDA)主题模型将每个标签映射到语义独立的主题空间,再根据每个标签相对该主题的置信度进行排序。通过以上步骤,可以为每个实体抽取语义独立的关键标签描述,实验中,该文通过对返回标签列表的准确性以及语义多样性进行了统计分析,验证了标签抽取方法的可行性和有效性。There are usually millions of comments for an entity (e. g. a shop or a product). How to extract the con- sice and useful information to describe the entity is a challenging issue. This paper proposes a method to extract tags without semantic redundancy. First, we perform the word segmentation, POS tagging and dependency parsing for all the comments. Then, we extract tags aeroding to the dependency realtions, and reduce the semantically duplicate tags explicitly. Finally, we map all the tags to the independent semantic space via K-Means and Latent Dirichlet A1- location(LDA), and rank the tag list. according to the topic confidence. The results of the experiments show that our method could extract the tags accurately with semantic independency.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30