基于本体及相似度的文本聚类研究  被引量:9

Study on text clustering based on ontology and similarity

在线阅读下载全文

作  者:王刚[1,2] 邱玉辉[2] 

机构地区:[1]安康学院电子与信息工程系,陕西安康725000 [2]西南大学语义网格实验室,重庆400715

出  处:《计算机应用研究》2010年第7期2494-2497,共4页Application Research of Computers

基  金:陕西省教育厅资助项目(09JK317);智能信息处理技术关键问题及应用研究(2008akxy005);基于本体的服务研究(AYQDZR200916)

摘  要:为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(textclusteringbased on ontology and similarity)。研究了文本预处理及分词的方法,设计了用有限状态自动机来自动提取概念和关系的方法,对概念语义扩展和相似度计算方法进行了改进和完善,通过应用本体的语义相似度来度量文档间相近程度,完善了根据相似度进行文本聚类的K中心点算法。实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量,为文本的自动分析和推荐提供了一条途径。To improve the quality of text clustering and get the satisfactory clustering results,this paper proposed a text clustering based on similarity and ontology(TCBOS).By organizing text as ontology,this paper were easy to represent the meanings and relations of concepts.This paper designed and improved the measurement of similarity and measured the text similarity by similarity of text ontology,designed the algorithm of text clustering based on similarity.Experiments show that the method can avoid using the term isolation and high-dimensional,and can improve the clustering quality in correction degree and association degree,it's a way to analyze the text automatically.

关 键 词:本体 相似度 文本聚类 语义 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象