基于AC-Trie的在线社交网络文本流热点短语挖掘  被引量:3

Mining Hot Phrases on Social Network Text Streams Based on AC-Trie

在线阅读下载全文

作  者:黄九鸣[1] 吴泉源[1] 张圣栋[1] 贾焰[1] 刘东[1] 周斌[1] 

机构地区:[1]国防科学技术大学计算机学院,湖南长沙410073

出  处:《电子学报》2016年第10期2466-2470,共5页Acta Electronica Sinica

基  金:国家973重点基础研究发展计划(No.2013CB329601);国家自然科学基金(No.61502517)

摘  要:在线社交网络文本流中的热点短语能反映文本流中隐含的热点话题和突发事件.本文提出了一种无需分词并能支持多种热度度量函数的热点短语挖掘技术.首先用文本流的某个典型时段采样得到候选短语,构建ACTrie前缀树.然后,基于该前缀树,单遍扫描后续的文本流,将候选短语的历史出现频率记录在Trie相应节点上,从而支持多种基于历史频率的热度计算方法.此外,为及时发现新的热点短语并减少AC-Trie的构建次数,本文通过分析Trie树各节点上的遗漏短语频率,动态确定候选短语的更新时机.新浪微博数据集上的实验验证了本文方法的有效性(准确率达89%)和高效性(时空开销仅为基准算法的2%).The hot phrases in the social network text streams can reflect the hidden hot topics and sudden events. This paper proposes a hot phrase mining technology which can support various hot degree measures without word segmentation.We first construct an AC-Trie using the candidate phrases gathered from text streams. Based on such AC-Trie,we record the historical occurrence frequency of phrases on the Trie by scanning the following streams in single-pass. Furthermore,the ACTrie needs to be reconstructed using the newsamples in the text stream because of the evolution of hot phrases. Thus,we start the reconstruction dynamically according to estimating the occurrence frequency of the missed phrases. The experiments on the Sina micro-blog showthat our approach is effective( precision of 89%) and efficient( overhead is 2% of nave approach).

关 键 词:文本流 热点短语 AC-Trie 文本挖掘 在线社交网络 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象