检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:吴锦池 余维杰 Wu Jinchi;Yu Weijie(School of Information Management,SunYat-sen University,Guangzhou 510006)
出 处:《情报杂志》2021年第5期156-164,共9页Journal of Intelligence
基 金:中山大学中央高校基本科研业务费专项资金资助(编号:19wkpy149)。
摘 要:[目的/意义]文本聚类是自然语言处理的重要分支,在文本挖掘、文献资源管理和知识发现等领域都有着重要作用。基于传统文本表示模型的文本聚类无法充分利用词语间的语义关系,且当文本数据量过大时,文本向量难以避免地会变得十分稀疏,进而影响聚类效果。[方法/过程]针对以上问题,本文从词语语义关系的角度出发,基于知网知识库和同义词词林知识库的义原层次结构关系扩充文本的语义信息,使文本特征之间的语义关联充分保留,并根据文本特征之间的义原距离计算特征之间相似度,再通过特征之间相似度计算文本相似度。[结果/结论]实验结果显示,基于本文方法的文本聚类在查准率、召回率和F1值等指标上都有较好的表现。[Purpose/Significance]Text clustering is an important branch of natural language processing and plays an important role in the fields of text mining,document resource management and knowledge discovery.The text clustering based on the traditional text representation model has the problems that the data dimension is too high,the data is sparse,and the semantic relationship between words cannot be fully utilized.[Method/Process]In view of the above problems,from the perspective of the semantic relationship of words,based on HowNet knowledge base and synonym CiLin knowledge base,a method for calculating text similarity based on word similarity is proposed and applied to text clustering.[Result/Conclusion]The experimental results show that the text clustering based on the method in this paper has good performance in the indicators such as precision rate,recall rate and F1 value.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49