基于非完全吸收马尔科夫链的多文档自动文摘算法  

Partial Absorbing Markov Chain Based Multi-document Summarization

在线阅读下载全文

作  者:高晶[1] 房俊[1] 

机构地区:[1]北方工业大学云计算研究中心,北京100144

出  处:《计算机科学》2013年第5期201-205,共5页Computer Science

基  金:国家自然基金重点项目(61033006);国家自然基金项目(60970131)资助

摘  要:吸收马尔科夫链模型在自动文摘领域的有效性已经证实。然而,此模型中的平均期望历经次数需要通过矩阵求逆得到,所以模型的时间复杂度很高。此外,由于自身的局限性,它也无法利用除句子间相互关系以外的其它信息。针对此问题建立了一个新的模型:非完全吸收马尔科夫链;并以此为基础提出了一个新的多文档文摘算法。证明了吸收马尔科夫链的平均期望历经次数与对应的非完全吸收马尔科夫链的稳态概率分布的等价性,而后者可通过迭代求解。同时,这个新的模型还可以引入除句子间相互关系以外的其它信息,从而生成更准确的文摘。在TAC2011上的实验证实了该模型的有效性。Absorbing Markov Chain has been proven to be effective in text summarization. However, the algorithm based on Absorbing Markov Chain is not only time-consuming due to matrix inversion but also inept to integrate other information except relationships among sentences because of the limitation of the model. This paper presents a novel multi-document summarization approach based on Partial Absorbing Markov Chain. The equivalent relationship between the average expected visits in Absorbing Markov Chain and the stationary probability in the corresponding Partial Ab- sorbing Markov Chain was demonstrated. Then, the stationary probability in Partial Absorbing Markov Chain which is easily calculated serves as a criterion to rank sentences. In addition, other kinds of information are incorporated together to generate a more accurate solution of the stationary probability. Experiments on TAC2011 main task are performed.

关 键 词:非完全吸收马尔科夫链 LexRank 面向主题的先验分布 多文档自动文摘 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象