融合知识库语义的文本聚类研究  被引量:7

Research on Text Clustering Based on HowNet and CiLin Semantics

在线阅读下载全文

作  者:吴锦池 余维杰 Wu Jinchi;Yu Weijie(School of Information Management,SunYat-sen University,Guangzhou 510006)

机构地区:[1]中山大学信息管理学院,广州510006

出  处:《情报杂志》2021年第5期156-164,共9页Journal of Intelligence

基  金:中山大学中央高校基本科研业务费专项资金资助(编号:19wkpy149)。

摘  要:[目的/意义]文本聚类是自然语言处理的重要分支,在文本挖掘、文献资源管理和知识发现等领域都有着重要作用。基于传统文本表示模型的文本聚类无法充分利用词语间的语义关系,且当文本数据量过大时,文本向量难以避免地会变得十分稀疏,进而影响聚类效果。[方法/过程]针对以上问题,本文从词语语义关系的角度出发,基于知网知识库和同义词词林知识库的义原层次结构关系扩充文本的语义信息,使文本特征之间的语义关联充分保留,并根据文本特征之间的义原距离计算特征之间相似度,再通过特征之间相似度计算文本相似度。[结果/结论]实验结果显示,基于本文方法的文本聚类在查准率、召回率和F1值等指标上都有较好的表现。[Purpose/Significance]Text clustering is an important branch of natural language processing and plays an important role in the fields of text mining,document resource management and knowledge discovery.The text clustering based on the traditional text representation model has the problems that the data dimension is too high,the data is sparse,and the semantic relationship between words cannot be fully utilized.[Method/Process]In view of the above problems,from the perspective of the semantic relationship of words,based on HowNet knowledge base and synonym CiLin knowledge base,a method for calculating text similarity based on word similarity is proposed and applied to text clustering.[Result/Conclusion]The experimental results show that the text clustering based on the method in this paper has good performance in the indicators such as precision rate,recall rate and F1 value.

关 键 词:同义词词林 知识库 文本聚类 语义 

分 类 号:G350[文化科学—情报学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象