检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王秀红[1,2,3] 鞠时光[4]
机构地区:[1]江苏大学科技信息研究所,江苏镇江212013 [2]江苏大学理学院,江苏镇江212013 [3]加州大学戴维斯分校农业与环境科学学院,加利福尼亚州戴维斯95616 [4]江苏大学计算机科学与通信工程学院,江苏镇江212013
出 处:《通信学报》2012年第12期43-48,共6页Journal on Communications
摘 要:为了提高文本相似检测的综合表现,在文本文档相似特征的基础上构造了新的核函数S_Wang核函数。结合文本相似计算过程中的实际情况,将待比对的文本表示成向量,考虑通过2个向量间的乘积和欧氏距离来描述向量之间的相似程度,从而构造了适合文本相似度计算的新核函数,并根据Mercer定理证明了所构造函数可以作为核函数。实验验证了新构造的核函数在文本文档相似度计算中的表现,实验结果表明S_Wang核其相似度计算精度和综合指标均分别优于Cauchy核、潜在语义核(LSK)以及CLA复合核。S_Wang核适用于文本相似度计算。To enhance the performance of detecting similar documents, a novel kernel function named S_Wang kernel was constructed. Based on the actual situation of computing text similarity, the S_Wang kernel was newly built with consideration of the Euclidean distance and angle between vectors that represented the text documents to be compared. It was proved that the function could be constructed as a kernel function according to Mercer theorem. Experimental verification of the performance of the kernels in the text document similarity calculation was provided. The results show that the S_Wang kernel is significantly better than the precision and F1 performance of other kernels like Cauchy kernel, Latent Semantic Kernel (LSK) and CLA kernel. S_Wang kernel is suitable for text similarity computation.
关 键 词:信息检索 文本相似度 核函数 S_Wang核 潜在语义核 CAUCHY核 CLA复合核
分 类 号:TP312[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7