主题与子事件发现的多文档自动文摘  被引量:1

Using topic and sub-event discover to extract multi-document summarization

在线阅读下载全文

作  者:王萌[1] 李春贵[1] 徐超[2] 何婷婷[3] 

机构地区:[1]广西工学院计算机工程系,广西柳州545006 [2]福建师范大学软件学院,福州350007 [3]华中师范大学计算机科学系,武汉430079

出  处:《计算机工程与应用》2011年第18期130-134,共5页Computer Engineering and Applications

基  金:国家自然科学基金(No.60773167);广西科学基金资助项目(桂科自0640034)~~

摘  要:提出了一种基于主题与子事件抽取的多文档自动文摘方法。该方法突破传统词频统计方法,除考虑词语频率、位置信息外,还将词语是否为描述文本集合的主题和子事件作为因素,提取出了8个基本特征,利用逻辑回归模型预测基本特征对词语权重的影响,计算词语权重。通过建立句子向量空间模型给句子打分,结合句子分数和冗余度产生文摘。对N-gram同现频率、主题词覆盖率和高频词覆盖率3种不同参数,分别在Coverage Baseline、Centroid-Based Summary和Word Mining based Summary(WMS)3种不同文摘系统下所产生的文摘质量,进行了对比实验,结果表明WMS系统在多方面具有优越的性能。A multi-document summarization method based on topic and sub-event is proposed.The method extracts eight basic word features using the frequency,position information,word of event and topic information etc.which break through tradi- tional statistical method,then chooses logistic regression model to compute words score.The summarizer gives a score to sentences in term of the word values,and combines score and redundancy of sentence to produce summarization.It uses three different summary systems(Coverage Baseline,Centroid-Based Summary and Word Mining based Summary(WMS)) in three aspects(N-gram co-occurrence statistics,term word coverage and high frequency word) to compare.The experimental results show the system of WMS has more effectiveness and feasibility.

关 键 词:深层词语挖掘 多文档自动文摘 逻辑回归模型 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象