面向语料的领域主题词表构建算法  被引量:5

Construction Method of Domain Subject Thesaurus Based on Corpus

在线阅读下载全文

作  者:安亚巍 操晓春[2] 罗顺 AN Ya -wei1, CAO Xiao- chun2 ,LO Shun1(1Shanghai General Recognition Technology Institute,Shanghai 201112,China;2Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, Chin)

机构地区:[1]上海通用识别技术研究所,上海201112 [2]中国科学院信息工程研究所,北京100093

出  处:《计算机科学》2018年第B06期396-397,410,共3页Computer Science

基  金:国家自然科学基金项目(61422213;U1636214)资助

摘  要:针对大规模领域主题词表提取的问题,提出根据给定语料中词共现特征构建词共现特征矩阵的方法。在此基础上进行词簇划分,进而计算出每个词簇的中心词,并以中心词为核心重新组织每个词簇,最终实现面向语料的主题词表的自动构建。实验结果表明,该算法具有较高的准确率和召回率。To achieve a massive domain corpus oriented subject thesaurus,a method based on feature matrix which is set up by computing words co-occurrence was proposed.By operating on this feature matrix,words are divided into clusters,and central word for each words cluster is calculated.Lexical bundles are finally gained by re-organizing words clusters using central word as a core.The experiment indicates that the proposed method can achieve good precision rate and recall rate.

关 键 词: 词共现特征 词簇划分 语料挖掘 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象