基于连续段落相似度的主题划分算法  被引量:10

Study on topic partition based on sequential paragraphic similarity

在线阅读下载全文

作  者:傅间莲[1] 陈群秀[1] 

机构地区:[1]清华大学计算机科学与技术系智能技术与系统国家重点实验室,北京100084

出  处:《计算机应用》2005年第9期2022-2024,共3页journal of Computer Applications

摘  要:主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。文中提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.4%,对单主题文章的主题划分准确率为99.1%。Topic partition is a significant problem during text structuring in automatic abstracting system. VSM was established for the whole article based on paragraph, and then algorithms for multi-topic text partitioning based on sequential paragraphic similarity were proposed. It solved the problem of chapter structural analysis in multi-topic article and made the abstract of the multi-topic to have more general content and more balanced structure. Experiments on close test show that the precision of topic partition for multi-topic text and single-topic text reaches 92.4% and 99.1% respectively.

关 键 词:自动文摘 向量空间模型 段落相似度 主题划分 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象