检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:马亮[1,2] 何婷婷[1,2] 李芳[1,2] 陈劲光[1,2] 邵伟[1,2]
机构地区:[1]华中师范大学计算机科学系,湖北武汉430079 [2]国家语言资源监测与研究中心网络媒体分中心,湖北武汉430079
出 处:《中文信息学报》2008年第6期50-54,共5页Journal of Chinese Information Processing
基 金:国家自然科学基金资助项目(60773167);湖北省自然科学基金资助项目(2006ABC011);973国家重点基础研究发展计划资助项目(2007CB310804);教育部/国家外国专家局高等学校学科创新引智计划资助项目(B07042);国家“十一五”科技支撑计划课题资助项目(2006BAK11B03)
摘 要:针对面向查询的多文档自动文摘,该文提出了一种以关键词抽取为核心的文摘句选择策略。通过查询扩展的相关技术得到相关多文档集中词语的查询相关性特征,利用最大似然估计法得到语料中词语的话题相关性特征,并将这两个特征值进行特征融合得到词语的重要度以确定关键词。然后通过关键词的重要度来给候选句打分,进一步利用改进的MMR(Maximal Marginal Relevance)技术来调整候选句的得分,最后生成文摘。该文将特征融合引入到词语层面,在DUC2005的语料中测试取得了较好的效果。This paper proposes a strategy of summary sentence selection by keywords extraction for query focused multi document summarization. This method extracts the query related word features through the technique of query expansion, calculates the topic related feature through maximum likelihood estimation and then combines the two features to determine the importance of each word. The score of candidate sentence is set as the sum of importance of words in it, and the modified MMR technology is used to generate the final summary. Owing to the introduction to word level features, the experimental result shows a satisfactory performance in DUC 2005 corpus.
关 键 词:计算机应用 中文信息处理 多文档文摘 关键词抽取 文摘句选择
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.175