检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京邮电大学管理学院,南京210023 [2]南京农业大学信息科技学院,南京210095 [3]江苏省数据工程与知识服务重点实验室,南京210023
出 处:《情报学报》2015年第8期885-896,共12页Journal of the China Society for Scientific and Technical Information
基 金:国家自科青年项目“基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究”(项目编号:71303120);南京邮电大学引进人才科研启动基金“基于语料库的词汇相似度计算研究”(项目编号:NYS213008);南京邮电大学国自基金孵化项目‘‘大数据时代下汉语词义知识挖掘研究”(项目编号:NY214112)的资助
摘 要:相似词是自然语言中普遍存在的现象,词汇相似度计算是情报学、自然语言处理和信息处理等领域的一项中间步骤。首先,基于大规模语料库构建了汉语词汇共现网络,进而利用复杂网络结构中节点相似的思想来计算词汇的相似度。其次,基于分布假设、上下文语境理论和词汇网络结构的特点,本文提出了基于贡献度折扣的词汇相似度计算方法,该方法不仅考虑了网络边的权重信息,还将节点的全局度特征融合进来。通过节点相似度实验发现,本文提出的基于贡献度折扣的相似度算法要明显好于共同邻居法、Jaccard方法和Sahon方法。最后文章就实验结果及其结论做了详细分析。Similar words are a common phenomenon in human languages. Word similarity calculation is a middle step in informatics, natural languages processing and information processing. First, a giant language network is constructed based on Chinese large-scale corpus. And then, the node similarity in complex network is used to similar word mining and word similarity calculation. Under distributional hypothesis, context theory and the characteristics of word network, the paper propose a new algorithm named Contribution Discount Similarity algorithm (CDSim) , which can capture not only the edge weight, but also the global characteristic. Compared with the three typical methods of node similarity calculation, such as common neighbors, Jaecard and Sahon, CDSim performs best. Finally, some related experiments and conclusion are discussed.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28