基于分级神经网络的Web文档模糊聚类技术  被引量:3

A Fuzzy Clustering Technology Based on Hierarchical Neural Networks for Web Document

在线阅读下载全文

作  者:雷景生[1,2] 马军[3] 靳婷[1] 

机构地区:[1]海南大学信息科学技术学院 [2]山东大学计算机科学与技术学院济南250061 [3]山东大学计算机科学与技术学院

出  处:《计算机研究与发展》2006年第10期1695-1699,共5页Journal of Computer Research and Development

基  金:海南省自然科学基金项目(80546);山东大学博士后基金项目~~

摘  要:给出了一种多层向量空间模型,该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段,按照不同位置的文本段确定相应的索引项权重.然后提出了一种简明而有效的基于分级神经网络的模糊聚类算法.与现有方法不同,该模糊聚类方法采用自组织神经网络和模糊聚类网络两部分组成的3层神经网络来实现.首先采用自组织神经网络从原始数据产生一个初始聚类结果,然后运用FCM方法对初始聚类的数目进行优化.实验结果表明,提出的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的Web文档较完全和准确地聚成一类.A multilayer vector space model is proposed in this paper. The model partitions a document into many text paragraphs, and the text weight is defined according to the text paragraphs' position. A simple and effective fuzzy clustering approach is presented. A three-layer hierarchical clustering neural network is developed to cluster the Web documents into some predefined categories or topics. The fuzzy clustering approach differs from existing clustering-based methods. First, a fuzzy competitive neural network is exploited as a data pre-processor to extract a number of subclusters which can be viewed as an initial fuzzy clustering from Web documents. Secondly, based on the initial fuzzy clustering, a fuzzy C-means (FCM) clustering algorithm is used to decide the optimal number of fuzzy clustering. The experimental results show that the Web documents focusing on a subject are rather completely and exactly clustering together.

关 键 词:向量空间模型 文档聚类 自组织网络 模糊C—Means 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象