检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:熊良钰 邓伦丹[1] Xiong Liangyu;Deng Lundan(College of Science and Technology Nanchang University,Gongqingcheng,China)
机构地区:[1]南昌大学科学技术学院,江西共青城
出 处:《科学技术创新》2024年第9期91-94,共4页Scientific and Technological Innovation
摘 要:Simhash算法是一种基于局部敏感哈希(LSH)的技术,以其快速的计算速度和高度的查重准确性而知名。该算法通过将文本特征转换为二进制码,进而通过计算这些二进制码之间的汉明距离来评估文本的相似度。在文本去重和重复文档检测等多个领域,Simhash算法已经展现出了显著的效果。鉴于此,将Simhash算法应用于题库查重具有很高的可行性和实际应用价值。The Simhash algorithm is a technique based on Locality Sensitive Hashing(LSH),known for its rapid computation speed and high accuracy in plagiarism detection.This algorithm converts text features into binary codes and evaluates the similarity of texts by calculating the Hamming distance between these binary codes.In various fields such as text deduplication and duplicate document detection,the Simhash algorithm has demonstrated significant effectiveness.Therefore,applying the Simhash algorithm to question bank plagiarism detection is highly feasible and has practical application value.
关 键 词:Simhash算法 汉明距离 题库查重系统 文本相似度计算 哈希函数
分 类 号:TP311.1[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.70