基于中心词耦合度和PageRank的文本自动摘录算法  被引量:1

A Text Automatic Extraction Algorithm Based on Coupling Degree and PageRank

在线阅读下载全文

作  者:何新宇[1] 

机构地区:[1]中山大学资讯管理学院,广州510000

出  处:《中山大学研究生学刊(社会科学版)》2013年第3期43-50,共8页Journal of the Graduates Sun YAT-SEN University(Social Sciences)

摘  要:阐述了自动文摘和PageRank算法的概念和步骤,并介绍了部分基于图排序的自动摘录算法;提出了一种基于中心词耦合度和PageRank的图排序文本自动摘录算法,通过文本特征筛选技术提取出文档中的中心词并定义了句子之间的中心词耦合度函数,再将中心词耦合度应用在PageRank算法中,最后通过句子的PageRank值来生成摘录;以SUMMAC的Computation and Language语料库中的新闻文档作为实验对象,采用ROUGE作为摘录效果评价工具进行实验。实验结果表明,本文算法跟单纯PageRank摘要算法相比摘录效果和摘录效率都有所提升。This paper introduces the principle of text automatic extraction and PageRank. And alsointroduces some automatic extraction algorithmsbased ongraph sorting. After that,this paper put forward aatext automatic extraction algorithm based on coupling degree and PageRank. Firstly,this algorithm extracts keywords from documents and define an keyword-coupling function. Secondly,applying this function on PageRank iteration process. Using PageRank value of each sentence,finally,this algorithm generate summary. WithSUMMAC' s Computation and Language corpus,this methodology is experimentedand evaluated by ROUGE. Experimental result shows that with this method performs better than the traditional PageRank extraction algorithm.

关 键 词:自动摘录 中心词 PAGERANK 耦合度 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象