基于Simhash算法的题库查重系统的设计与实现  

Design and Implementation of Question Bank Plagiarism Detection System Based on Simhash Algorithm

在线阅读下载全文

作  者:熊良钰 邓伦丹[1] Xiong Liangyu;Deng Lundan(College of Science and Technology Nanchang University,Gongqingcheng,China)

机构地区:[1]南昌大学科学技术学院,江西共青城

出  处:《科学技术创新》2024年第9期91-94,共4页Scientific and Technological Innovation

摘  要:Simhash算法是一种基于局部敏感哈希(LSH)的技术,以其快速的计算速度和高度的查重准确性而知名。该算法通过将文本特征转换为二进制码,进而通过计算这些二进制码之间的汉明距离来评估文本的相似度。在文本去重和重复文档检测等多个领域,Simhash算法已经展现出了显著的效果。鉴于此,将Simhash算法应用于题库查重具有很高的可行性和实际应用价值。The Simhash algorithm is a technique based on Locality Sensitive Hashing(LSH),known for its rapid computation speed and high accuracy in plagiarism detection.This algorithm converts text features into binary codes and evaluates the similarity of texts by calculating the Hamming distance between these binary codes.In various fields such as text deduplication and duplicate document detection,the Simhash algorithm has demonstrated significant effectiveness.Therefore,applying the Simhash algorithm to question bank plagiarism detection is highly feasible and has practical application value.

关 键 词:Simhash算法 汉明距离 题库查重系统 文本相似度计算 哈希函数 

分 类 号:TP311.1[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象