基于主题划分的网页自动摘要  被引量:8

Automatic summarization of Web document based on topic segmentation

在线阅读下载全文

作  者:陈志敏[1] 沈洁[1] 林颖[1] 周峰[1] 

机构地区:[1]扬州大学信息工程学院,江苏扬州225009

出  处:《计算机应用》2006年第3期641-644,共4页journal of Computer Applications

基  金:江苏省高校自然科学基金资助项目(MB20022312)

摘  要:提出了一种以网页结构为指导的自动摘要方法。对页面源文件进行解析时,利用文档的结构信息生成DOM树,并在此基础上划分文档主题。同时充分挖掘网页标记对主题词提取和句子重要性计算的价值。最后以主题块为单位,根据句子间的相似度调整句子权重,动态生成摘要。实验结果表明该方法能有效解决文档摘要分布不平衡问题,减少了文摘内容的冗余。A method of automatic summarization in Web information retrieval was proposed based on the struetruc of the Web document. The document was partitioned into several topic blocks through parsing the document into DOM( Document Object Model) tree and comparing the semantic similarity. The tag information was fully used to extract topic words and key sentences. Finally the abstract was created dynamically through adjusting the weights of sentences. The experiment results show that the new method can slove the imbalance problem of abstract and reduce the redundancy of the content effectively.

关 键 词:WEB信息检索 文档对象模型 主题划分 句子重要度 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象