多文档文摘中基于时间信息的句子排序策略研究  被引量:8

Research on Temporal Information Based Sentences Ordering in Multi-Document Automatic Summarization

在线阅读下载全文

作  者:徐永东[1] 王亚东[1] 刘杨[1] 王伟[1] 权光日[1] 

机构地区:[1]哈尔滨工业大学(威海)计算机科学与技术学院,山东威海264209

出  处:《中文信息学报》2009年第4期27-33,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(60803092);哈尔滨工业大学科技创新基金资助(IMQQ29080001)

摘  要:文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序效果。对此该文从文本时间信息处理入手,首先提出了中文文本时间信息抽取、语义计算以及时序推理算法,并在此算法基础上,借鉴传统的主成分排列的思想和句子相关度计算方法,提出了基于时间信息的句子排序算法。实验表明该算法的质量要明显好于传统的主成分排列算法和时序排列算法。Sentences ordering is a key issue in the multi-documents automatic summarization, which influences the fluency and readability of the summarization. Among them, temporal information processing is the bottleneck technology which affects the quality of the ordering algorithm. Traditional ordering methods ignore this factor because the temporal information processing is very difficult, and, as a result, they could not achieve steady and high quality ordering effects. To address this issue, this paper proposes an algorithm of Chinese text temporal information extraction, semantics computation and temporal reasoning. Then, based on the strategy of the majority ordering and the computation of sentences similarity, we propose sentences ordering algorithm based on the temporal information. The experiments show that the quality of this algorithm outperforms the calssical majority ordering algorithm and the chronological ordering algorithm.

关 键 词:计算机应用 中文信息处理 多文档自动文摘 句子排序 中文时间信息处理 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象