以关键词抽取为核心的文摘句选择策略  被引量:8

Summary Sentence Selection by Keywords Extraction

在线阅读下载全文

作  者:马亮[1,2] 何婷婷[1,2] 李芳[1,2] 陈劲光[1,2] 邵伟[1,2] 

机构地区:[1]华中师范大学计算机科学系,湖北武汉430079 [2]国家语言资源监测与研究中心网络媒体分中心,湖北武汉430079

出  处:《中文信息学报》2008年第6期50-54,共5页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(60773167);湖北省自然科学基金资助项目(2006ABC011);973国家重点基础研究发展计划资助项目(2007CB310804);教育部/国家外国专家局高等学校学科创新引智计划资助项目(B07042);国家“十一五”科技支撑计划课题资助项目(2006BAK11B03)

摘  要:针对面向查询的多文档自动文摘,该文提出了一种以关键词抽取为核心的文摘句选择策略。通过查询扩展的相关技术得到相关多文档集中词语的查询相关性特征,利用最大似然估计法得到语料中词语的话题相关性特征,并将这两个特征值进行特征融合得到词语的重要度以确定关键词。然后通过关键词的重要度来给候选句打分,进一步利用改进的MMR(Maximal Marginal Relevance)技术来调整候选句的得分,最后生成文摘。该文将特征融合引入到词语层面,在DUC2005的语料中测试取得了较好的效果。This paper proposes a strategy of summary sentence selection by keywords extraction for query focused multi document summarization. This method extracts the query related word features through the technique of query expansion, calculates the topic related feature through maximum likelihood estimation and then combines the two features to determine the importance of each word. The score of candidate sentence is set as the sum of importance of words in it, and the modified MMR technology is used to generate the final summary. Owing to the introduction to word level features, the experimental result shows a satisfactory performance in DUC 2005 corpus.

关 键 词:计算机应用 中文信息处理 多文档文摘 关键词抽取 文摘句选择 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象