检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘德喜[1] 何炎祥[2] 姬东鸿[3] 杨华[2]
机构地区:[1]襄樊学院,湖北襄樊441053 [2]武汉大学计算机学院,湖北武汉430079 [3]武汉大学语言与信息研究中心,湖北武汉430079
出 处:《中文信息学报》2006年第6期46-53,共8页Journal of Chinese Information Processing
基 金:国家自然科学基金重大研究计划资助项目(90104005)
摘 要:SBGA系统将多文档自动摘要过程视为一个从源文档集中抽取句子的组合优化过程,并用演化算法来求得近似最优解。与基于聚类的句子抽取方法相比,基于演化算法进行句子抽取的方法是面向摘要整体的,因此能获得更好的近似最优摘要。演化算法的评价函数中考虑了衡量摘要的4个标准:长度符合用户要求、信息覆盖率高、更多地保留原文传递的重要信息、无冗余。另外,为了提高词频计算的精度,SBGA采用了一种改进的词频计算方法TFS,将加权后词的同义词频率加到了原词频中。在DUC2004测试数据集上的实验结果表明,基于演化算法进行句子抽取的方法有很好的性能,其ROUGE-1分值比DUC2004最优参赛系统仅低0.55%。改进的词频计算方法TFS对提高文档质量也起到了良好的作用。The multi-document summarizer using genetic algorithm-based sentence extraction (SBGA) regards summarization process as an optimization problem where the optimal summary is chosen among a set of summaries formed by the conjunction of the original articles sentences. To solve the NP hard optimization problem, SBGA adopts genetic algorithm, which can choose the optimal summary on global aspect, The evaluation function employs four features according to the criteria of a good summary : satisfied length, high coverage, high informativeness and low redundancy, To improve the accuracy of term frequency, SBGA employs a new method TFS, which takes word sense into account while calculating term frequency. The experiments on the data in DUC04 show that our strategy is effective and the ROUGE-1 score is only 0. 55% lower than the best participant in DUC04.
关 键 词:计算机应用 中文信息处理 多文档自动摘要 演化算法 句子抽取 评价函数 TFS
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222