检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]复旦大学计算机科学技术学院,上海201203
出 处:《计算机工程》2012年第10期38-40,共3页Computer Engineering
摘 要:研究数据标准化处理对语义关系相似度计算的影响。从大规模文本语料中提取词法模式,生成词对-词法模式矩阵,利用3种数据标准化方式对矩阵数据进行处理,通过规律学习方法对隐含语义关系相似度进行计算。实验结果表明,不做数据标准化、z-score标准化、范围标准化、熵加权标准化处理的分类准确率分别为0.87、0.89、0.95、0.96。This paper researches the influence of the data standardization for semantic relation similarity calculation.It extracts lexical pattern from huge text corpus,generates the word pair-lexical pattern matrix,employs three methods to standard the original data matrix,and uses law study method to calculate the similarity between relations.Experimental result shows that without any standardization,the classification task with a statistically significant average precision score is 0.87,z-score standardization is 0.89,interval standardization is 0.95,and weighted based on entropy is 0.96.
关 键 词:语义关系 相似度 词法模式 词对-词法模式矩阵 数据标准化 WEB数据挖掘
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.97