利用本体技术的文本聚类模型  

Text clustering model based on ontology

在线阅读下载全文

作  者:李少博[1] 邸书灵[1] 范通让[1] 

机构地区:[1]石家庄铁道大学信息科学与技术学院,河北石家庄050043

出  处:《河北省科学院学报》2014年第2期79-82,共4页Journal of The Hebei Academy of Sciences

摘  要:文本聚类作为一种自动化程度较高的无监督机器学习方法,能够实现对文本信息的有效组织、摘要和导航,近年来已经广泛应用在信息检索领域。笔者针对使用向量空间模型进行聚类时对于同义词和多义词的处理存在的缺陷,提出了基于本体的文本聚类模型。首先使用WordNet词典对文档中的词进行语义标注,得到文档的概念集合;然后对每个文档的概念集合进行概念聚类,生成文档的概念主题;最后通过计算主题的相似度完成文本聚类。该模型减少了相似度计算量,改善了聚类结果和聚类性能。Text clustering as a high degree of automation unsupervised machine learning methods,that can achieve effective organization,summary and navigation of text information.In recent years text clustering hans been widely used in the field of information retrieval.This paper against use the vector space model for clustering for processing defects of synonyms and polysemy,we proposed a new text clustering model based on ontology.First,this method use the WordNet dictionary to semantic annotations words of document,getting the concept of document collection;Then,the concept of each document clustering,achieve the subject of document;Finally through calculate the similarity among subjects.This method reduces the similarity calculation,the model improves the clustering results and performance.

关 键 词:本体 文本聚类 概念主题 WORDNET 

分 类 号:TP391.12[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象