检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李赟[1,2] 黄开妍[2] 任福继[1,2] 钟义信[1]
机构地区:[1]北京邮电大学计算机学院,北京100876 [2]德岛大学先端技术科学教育部,日本德岛7708502
出 处:《北京邮电大学学报》2009年第3期109-112,共4页Journal of Beijing University of Posts and Telecommunications
基 金:国家自然科学基金项目(60873001);国家科技支撑计划项目(2007BAH05B02-04)
摘 要:为了研究在线百科全书维基百科在语义相关词抽取、语义相关度计算等方面的应用,从中文维基百科下载并整理了5万余篇解释页面文档,抽取了反映语义关系的站内超级链接网络,通过挖掘文档间相互引用的链接关系抽取了近40万对语义相关词,并研究了语义相关词之间的主题聚类特性,选择两两相关的多个词得到相关词集合并计算了平均语义相关度.相关度计算综合利用了链接在文档中的位置、频率等信息,通过对比经典算法在同一测试集上的计算结果对算法进行了分析评估,证明了维基百科语义相关词抽取方法的有效性.To find how to collect semantic related words and calculate semantic relatedness, an experiment is done to download about 50 thousand documents from the web site of Chinese Wikipedia and extract hyperlinks between lines which contains semantic information. By mining hyperlinked references in documents, about 400 thousand semantic related word pairs are collected. With more experi- ments on topic groups of related words, tightly related words are grouped into smaller sets with an average semantic relatedness calculated. Semantic relatedness is calculated using information of hyperlink positions and frequencies in documents. Comparing with the result by classic algorithms, the reliability of the new measures is analyzed.
分 类 号:TN911.22[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.141.33.133