检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]湖南科技学院信息工程学院,湖南永州425199 [2]湖南科技学院信息与网络中心,湖南永州425199
出 处:《湖南科技学院学报》2021年第5期51-54,共4页Journal of Hunan University of Science and Engineering
基 金:永州市科技计划项目资助(永科发[2014]17号);湖南省教育厅科学研究重点项目资助(20A212);湖南科技学院应用特色学科建设项目资助。
摘 要:为解决文本数据的个性化查重问题,提出基于Simhash算法的文本查重的方法,设计并实现了系统原型。首先,阐述了文本相似度模型和计算算法;其次,根据需求规划设计了系统整体实现架构并详细描述其设计过程;再次,描述了查重算法和查重功能模块实现的详细流程;最后,对系统原型进行功能测试和算法相似度计算准确性测试。实验证明:在小规模文本文档样本中,系统能较好的实现文本相似度的计算和特征库的个性化定制,可集成并适用于小规模企业办公系统等平台的文本相似性查重环境。
关 键 词:Simhash算法 文本相似度 余弦相似度 文本查重 Flask框架
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.220.204.192