改进的潜在语义分析中文摘录方法  被引量:8

Improved extractive summarization of Chinese texts using latent semantic analysis

在线阅读下载全文

作  者:肖升[1,2] 何炎祥[1] 

机构地区:[1]武汉大学计算机学院,武汉430072 [2]湖南第一师范学院信息科学与工程系,长沙410205

出  处:《计算机应用研究》2012年第12期4507-4511,共5页Application Research of Computers

基  金:国家自然科学基金资助项目(60703008);湖南省教育厅科学研究资助项目(10C0527);湖南省高校科技创新团队支持计划资助项目(湘教通[2010]212号);湖南省科技厅高新计划资助项目(2010GK3049)

摘  要:中文摘录是一种实现中文自动文摘的便捷方法,它根据摘录规则选取若干个原文句子直接组成摘要。通过优化输入矩阵和关键句子选取算法,提出了一种改进的潜在语义分析中文摘录方法。该方法首先基于向量空间模型构建多值输入矩阵;然后对输入矩阵进行潜在语义分析,并由此得出句子与潜在概念(主题信息的抽象表达)的语义相关度;最后借助改进的优选算法完成关键句子选取。实验结果显示,该方法准确率、召回率和F度量值的平均值分别为75.9%、71.8%和73.8%,与已有同类方法相比,改进后的方法实现了全程无监督且在整体效率上有较大提升,更具应用潜质。Chinese extractive summarization is a convenient method to realize Chinese text summarization,which extractes sentences and composites summarization corresponding to the extractive rules.This paper proposed an improved Chinese extractive summarization method using latent semantic analysis by optimizing input matrix and the key sentence selection algorithm.First,the method created multi-valued input matrix based on vector space model.Then it abtained the semantic correlation between sentences and latent conceptions(the Abstract expression of theme) by latent semantic analysis for input matrix.At last,it extracted the key sentences by improved optimal selection algorithm.The experimental results show that the respective average for precision,recall and F-measure are 75.9%,71.8% and 73.8%,and compared with the existing similar methods,the improved method becomes unsupervised completely and makes dramatical improvement of overall,so it has more potential application value.

关 键 词:自动文摘 自动摘录 潜在语义分析 奇异值分解 潜在概念 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象