微博中基于增强型倒排索引的特定文档影响力估计算法  

Estimating the influence of documents:An enhanced inverted index based approach

在线阅读下载全文

作  者:司宏伟[1] 

机构地区:[1]国防科学技术大学计算机学院,湖南长沙410073

出  处:《计算机工程与科学》2014年第3期545-550,共6页Computer Engineering & Science

基  金:国家863计划资助项目(2011AA010702;2012AA01A402);国家自然科学基金资助项目(91124002);科技支撑计划课题(2012BAH38B06)

摘  要:微博搜索系统中,将微博帖子根据搜索相关性和重要性进行排序,并通过列表的方式返回结果,是目前信息内容的主要展示手段。基于向量空间模型的打分函数被广泛地应用于该类系统中。事实上,微博系统中的帖子重要性打分函数实际取值并不为用户所见,文档的影响力通过排名的方式表现出来。对于一个检索外的文档,如何衡量其在信息检索系统文库中的影响力?一般搜索引擎或信息检索系统并不能很好地回答该问题。在微博短文本的基础上引入了社交影响力这一概念,并通过在文本倒排索引基础上设置反向位置标记,给出了一种全新的影响力度量指标,有效地回答了前述问题。理论分析和数据实验验证了算法的有效性和效率。Ranking the documents in a list has been extensively used in a lot of search engine sys- tems. In these systems, vector space based ranking models are adopted. Actually, the ranking score of a given document is invisible to search engine users, and the rank position can be regarded as a measure of the influence of a given document. However, for a document outside corpus, how can we measure the influence of it? The question cannot be answered by using ordinary search engines. Social influence is in- troduced on a real micro-blogging system. Moreover, a large number of milestones are added into invert- ed indices for the sake of estimating the influence scores. Therefore, above questions can be well an- swered. The experiments on real data sets verify the effectiveness and efficiency.

关 键 词:信息获取 倒排索引 TFIDF指标 索引标记 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象