基于文本聚类技术的主题发现  被引量:15

Topic discovery based on text clustering techniques

在线阅读下载全文

作  者:郭建永[1] 蔡勇[1] 甄艳霞[1] 

机构地区:[1]江南大学信息工程学院,江苏无锡214122

出  处:《计算机工程与设计》2008年第6期1426-1428,1432,共4页Computer Engineering and Design

摘  要:阐述了一种主题发现系统,它能发现数据流中的隐含知识,并将其表述为含有主题/副主题的层次树,每个主题包含与其相关的文档集和文档摘要,以便于用户从层次树中浏览和选择所需主题。并提出了一种增量层次聚类算法,该算法结合了划分聚类和凝聚聚类的主要优点。实验结果表明,无论是作为主题检测系统还是分类和概括工具,该算法都是高效的。A topic discovery system aimed to reveal the implicit knowledge present in streams is presented.This knowledge is expressed as a hierarchy of topic/subtopics,where each topic contains the set of related documents and summary extracted from these documents.It is useful to browse and select topics of interest from the generated hierarchies.The method consists of a new incremental hierarchical clustering algorithm,which combines both partitional and agglomerative approaches.Experimental results demonstrate its effectiveness not only as a topic detection system,but also as a classification and summarization tool.

关 键 词:文本聚类 主题发现 层次方法  文本挖掘 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象