一种有效的多文档文摘语义空间降维方法  

An Efficient Semantic-Space Dimension Reduction Method for Multi-document Summarization

在线阅读下载全文

作  者:张先飞[1] 刘嵩[1] 韩永峰[1] 孙显著 

机构地区:[1]解放军信息工程大学信息工程学院,郑州450002 [2]72495部队,郑州450002

出  处:《情报学报》2011年第3期286-291,共6页Journal of the China Society for Scientific and Technical Information

基  金:本文受国家高技术研究发展计划(863)资助,项目编号:2007AA01Z439.

摘  要:基于多文档集合特征的多文档文摘生成方法在选取最优词时利用人工进行特征降维,方法过于机械,同时在回溯词.文档矩阵进行文本相似度计算时,存在对稀疏矩阵无法计算的问题。本文对话题追踪结果进行多文档文摘研究,提出一种有效的多文档文摘语义空间降维方法。新方法在整个话题范围内构造语义空间词-文档矩阵,采用奇异值分解对原始词.文档矩阵进行特征降维,同时构造能充分包含原始文档词汇信息且维数低的转换矩阵F,利用它来回溯词-文档矩阵,完成低维空间下的词相似度计算,进而完成文本单元相似度计算以及文本单元聚类,最终生成多文档自动文摘。实验结果表明,该方法能够对语义空间词.文档矩阵进行完美降维,同时避免稀疏矩阵无法计算的问题,对最终生成的多文档文摘有着很好的效果。Multi-document summarization method based on multi-feature reduces dimension by manual means when selecting feature words, which is very mechanical. Meanwhile, there is imponderable problem for sparseness matrix when backdating word-document matrix for calculating similarity. This paper researches on multi-document summarization of topic tracking, and presents an efficient semantic-space dimension reduction method for multi-doeument summarization. The new method constructs semantic-space word-document matrix in the whole topic and reduces original matrix dimension by singular value decomposition (SVD). Meanwhile, it constructs low dimension conversion matrixF which contains feature information of original matrix, backdates word-document matrix byF, calculates words similarity in low dimension and documents similarity, and gains multi-document summarization by clustering algorithm. The experiment result shows that the new method of this paper can reduce dimension of semantic-space matrix perfectly and avoid imponderable problem for sparseness matrix, and it also can summarize multi-document efficiently.

关 键 词:语义空间 多文档文摘 特征降维 奇异值分解 聚类 

分 类 号:TP317.2[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象