一种基于名词的微博语义计算方法  被引量:4

A Noun-based Micro Blog Semantic Algorithm

在线阅读下载全文

作  者:时睿[1] 封化民[1,2] 

机构地区:[1]西安电子科技大学通信工程学院,陕西西安中国710071 [2]北京电子科技学院,北京中国100070

出  处:《北京电子科技学院学报》2011年第4期16-22,29,共8页Journal of Beijing Electronic Science And Technology Institute

基  金:国家自然基金项目"基于多模态特征的多媒体语义分析关键理论与技术研究(No.60972139)";北京市自然科学基金项目"基于网络多媒体信息语义的网络舆情分析研究(No.4092041)"的资助

摘  要:微博具有传播快、数量大、语言简练等特点,对舆情分析提出了更高要求。从微博短文本中提取特征用来计算相似度时,现有的字符串匹配方法在语义分析方面存在局限性。因此本文从语义角度提出一种基于名词语义的微博相似度算法。该算法将名词集合作为微博特征,利用《知网》词典树状结构,计算得到微博短文本间的相似度。中等规模微博数据集实验表明,本文提出的算法能够准确判断微博主题含义,同一类别微博相似度90%以上分布在0.6-1.0之间,可为后续微博聚类服务。To capture micro blogs' features for public opinion analysis, common metnocls using string matching have their limits in semantic analysis. In this paper, an algorithm that computes micro blogs' similarity based on nouns' semantics is proposed. The algorithm uses set of nouns as micro blog's feature, and computes the similarities of the short texts of micro blogs based on the tree structure of "HowNet" dictionary. The experimental result on a middle size of micro blogs shows that the algorithm can get the subject accurately, and more than 90% of the similarities of micro blogs from the same class are distribution in O. 6 to 1, which can help the work of clustering.

关 键 词:微博短文本 语义相似度 名词 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象