语义关系相似度计算中的数据标准化方法比较  被引量:16

Comparison of Data Standardization Method in Semantic Relation Similarity Calculation

在线阅读下载全文

作  者:王正鹏[1] 谢志鹏[1] 邱培超[1] 

机构地区:[1]复旦大学计算机科学技术学院,上海201203

出  处:《计算机工程》2012年第10期38-40,共3页Computer Engineering

摘  要:研究数据标准化处理对语义关系相似度计算的影响。从大规模文本语料中提取词法模式,生成词对-词法模式矩阵,利用3种数据标准化方式对矩阵数据进行处理,通过规律学习方法对隐含语义关系相似度进行计算。实验结果表明,不做数据标准化、z-score标准化、范围标准化、熵加权标准化处理的分类准确率分别为0.87、0.89、0.95、0.96。This paper researches the influence of the data standardization for semantic relation similarity calculation.It extracts lexical pattern from huge text corpus,generates the word pair-lexical pattern matrix,employs three methods to standard the original data matrix,and uses law study method to calculate the similarity between relations.Experimental result shows that without any standardization,the classification task with a statistically significant average precision score is 0.87,z-score standardization is 0.89,interval standardization is 0.95,and weighted based on entropy is 0.96.

关 键 词:语义关系 相似度 词法模式 词对-词法模式矩阵 数据标准化 WEB数据挖掘 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象