基于改进的χ~2检验的热点词突发性度量研究  被引量:1

Bursty Measurement of Hot Term Based on Improvement χ~2 Test Combined with TF

在线阅读下载全文

作  者:翟东海[1,2] 聂洪玉[1] 崔静静[1] 于磊[1] 杜佳[2] 王佳君[2] 

机构地区:[1]西南交通大学信息科学与技术学院,成都610031 [2]西藏大学工学院,拉萨850000

出  处:《计算机与数字工程》2013年第11期1788-1790,共3页Computer & Digital Engineering

基  金:国家语委"十二五"科研规划项目(编号:YB125-49);教育部科学技术研究重点项目(编号:212167);中央高校基本科研业务费专项资金科技创新项目(编号:SWJTU12CX096);国家级大学生创新创业训练计划项目(编号:201210694017)资助

摘  要:采用原始χ2检验公式进行突发性度量时存在低频词偏袒问题,论文提出了结合TF的改进的χ2检验方法能有效克服该问题。该方法将词频累加和作为文档统计篇数的影响因子β引入原始χ2检验公式从而解决了低频词偏袒问题,提高了度量热点词突发性的精确度。动态突发性热点词库依据改进后的χ2检验公式得到的突发性度量值来建立,并将该词库运用在动态突发性向量空间模型中来发现与追踪网络突发性热点话题。实例验证表明,利用该文的方法进行话题发现与追踪,可以获得有更高的准确率、召回率以及F度量。Original x2 test formula favors low frequency words when it measures bursty of hot term. To overcome this problem, the im- provedx2 test formula combined with TF is proposed. In this approach, the term frequency summary, an impact factor 13 to the document statistics, is introduced into the original x2 test formula. The experimental results show the dynamic bursty vector space model achieved high- er precision, recall and F-measure in online bursty topic detection and tracking, when dynamic bursty lexicon is constructed according to the bursty measurement using the improved x2 test.

关 键 词:突发性热点词 χ2检验 词频 动态突发性词库 

分 类 号:TP339.4[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象