基于维基百科的短文本语义扩展方法研究  被引量:2

SEMANTIC EXTENSION OF SHORT-TEXT BASED ON WIKIPEDIA

在线阅读下载全文

作  者:韩冬雷[1] 金花[2] 朱亚涛[2,3] 刘金刚[1,3] 

机构地区:[1]首都师范大学计算机科学联合研究院,北京100048 [2]河北农业大学信息科学与技术学院,河北保定071001 [3]中国科学院计算技术研究所,北京100190

出  处:《计算机应用与软件》2014年第10期49-52,共4页Computer Applications and Software

基  金:国家自然科学基金项目(60903139);国家自然科学基金面上项目(61173008);河北省高等学校科学技术研究青年基金项目(Z2012142);河北农业大学理工基金项目(LG20120604)

摘  要:面对短文本信息内容稀疏、上下文语境提取困难的挑战,基于维基百科的结构化信息特征,提出一种利用NMF算法来扩展短文本语义的方法。通过自动识别与短文本信息语义特征相关的维基百科概念来丰富它的内容,从而有效提高短文本信息数据挖掘和分析的效果。实验结果表明与已有方法相比,应用此方法可以进一步提高短文本信息语义扩展的效率和准确率。Facing the challenges of the sparsity of short-text content and the difficulty in extracting linguistic context, we propose a solution based on the structured information feature of Wikipedia to expand the semantics of short-text using NMF algorithm. It enriches the semantic feature of the short-text information by automatically identifying the concepts in Wikipedia that are pertinent to it. Thereby, it can effectually improve the effects of data mining and analysis on short-text information. Experimental results demonstrate that compared with existed methods, the use of method is able to further improve the efficiency and accuracy of the semantic extension of short-text information.

关 键 词:短文本 非负矩阵分解 锚文本 语义相似度 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象