一种基于词序信息的自动文摘方法  被引量:3

Automatic text summarization based on word order

在线阅读下载全文

作  者:任纪生[1] 张弛[1] 王作英[1] 

机构地区:[1]清华大学电子工程系,北京100084

出  处:《计算机工程与设计》2007年第1期178-181,共4页Computer Engineering and Design

基  金:国家863高技术研究发展计划基金项目(2001AA114071)

摘  要:自动文摘技术应尽可能获取准确的相似度以确定句子或段落的权重,但目前常用的基于向量空间模型的计算方法却忽视句子、段落、文本中词的顺序。提出了一种新的基于相邻词序组的相似度度量方法并应用于文本的自动,采用基于聚类的方法实现了词序组的向量表示并以此刻画句子、段落、文本,通过线性插值将基于不同长度词序组的相似度结果予以综合。同时,提出了新的基于含词序组重要性累计度的句子或段落的权重指标。实验证明利用词序信息可有效提高自动文摘质量。Automatic text summarization obtain accurate similarity measure for determining the weight of a sentence or a paragraph, but the common algorithm based on vector space model actually neglects the word order presented in sentences, paragraphs, and texts. A new computational scheme based on the combination of neighboring word is proposed, which is applied in automatic text summarization. The vector representation for the combination of neighboring word is implemented via clustering and it is used for characterizing senten- ces, paragraphs, or texts. The similarity results of multi-length phrase are integrated through linear interpolation. A new weighting index for sentence or paragraph is also proposed based on the aggregate significance of word's combination. Experimental results show that the using of word order improve the quality of summarization effectively.

关 键 词:自动文摘 词序 向量空间模型 相似度 权重 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象