检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]广西工学院计算机工程系,广西柳州545006 [2]福建师范大学软件学院,福州350007 [3]华中师范大学计算机科学系,武汉430079
出 处:《计算机工程与应用》2011年第18期130-134,共5页Computer Engineering and Applications
基 金:国家自然科学基金(No.60773167);广西科学基金资助项目(桂科自0640034)~~
摘 要:提出了一种基于主题与子事件抽取的多文档自动文摘方法。该方法突破传统词频统计方法,除考虑词语频率、位置信息外,还将词语是否为描述文本集合的主题和子事件作为因素,提取出了8个基本特征,利用逻辑回归模型预测基本特征对词语权重的影响,计算词语权重。通过建立句子向量空间模型给句子打分,结合句子分数和冗余度产生文摘。对N-gram同现频率、主题词覆盖率和高频词覆盖率3种不同参数,分别在Coverage Baseline、Centroid-Based Summary和Word Mining based Summary(WMS)3种不同文摘系统下所产生的文摘质量,进行了对比实验,结果表明WMS系统在多方面具有优越的性能。A multi-document summarization method based on topic and sub-event is proposed.The method extracts eight basic word features using the frequency,position information,word of event and topic information etc.which break through tradi- tional statistical method,then chooses logistic regression model to compute words score.The summarizer gives a score to sentences in term of the word values,and combines score and redundancy of sentence to produce summarization.It uses three different summary systems(Coverage Baseline,Centroid-Based Summary and Word Mining based Summary(WMS)) in three aspects(N-gram co-occurrence statistics,term word coverage and high frequency word) to compare.The experimental results show the system of WMS has more effectiveness and feasibility.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.119.131.79