基于概念统计和语义层次分析的英文自动文摘研究  被引量:9

Research on Automatic Summarization Based on Concept Countingand Semantic Hierarchy Analysis for English Texts

在线阅读下载全文

作  者:季姮[1] 罗振声[1] 万敏[1] 高小云[1] 

机构地区:[1]清华大学人文学院计算语言学研究室,北京100084

出  处:《中文信息学报》2003年第2期14-20,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目 (6 9972 0 2 5 )

摘  要:传统的自动文摘方法基于词语统计抽取文摘句 ,未进行文本的语义分析 ,导致文摘精度不高。为了克服传统方法的缺点 ,本文提出了一种基于主题概念的自动文摘方法 ,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用WordNet以概念统计代替传统的词频统计 ,基于主题概念构建向量空间模型 ,计算句子重要度。并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块 ,以意义块为单元抽取文摘 ,初步解决了多主题文章的文摘结构不平衡问题。本文主要介绍了概念层次树的构造 ,主题概念的抽取步骤 ,基于主题概念的句子重要度的计算和意义块的划分算法。测试表明 ,通过概念统计和语义层次分析的方法 ,我们设计了更理想的向量空间模型 ,系统生成的文摘精度较高 。Most of the previous summarizing methods are based on word counting,which misses deep semantic analysis of texts,so the generated abstract is unsatisfying.This paper puts forward a new summarizing method based on concept counting and semantic hierarchy analysis. Based on the extracted topic concepts,an effective English Text Summarizing system is developed. This system uses topic concepts to construct Vector Space Model.The abstract is generated in addition with discourse analysis and readability improvement.This paper proposes the parameters of evaluating topic concepts,and mainly describes the detailed algorithm of building concept hierarchy tree,extracting topic concepts and the applying topic concepts to generate abstracts.The experiment result shows that compared to word counting,this new method has enhanced both the recall rate and the precision rate of the system,and it helps to solve the abstract unbalanced distribution problem of multi topic texts.

关 键 词:计算机应用 中文信息处理 概念统计 主题概念 向量空间模型 句子重要度 意义块划分 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象