检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]渤海大学信息科学与工程学院,辽宁锦州121000 [2]大连海事大学信息科学技术学院,辽宁大连116026
出 处:《计算机工程与应用》2011年第24期199-201,共3页Computer Engineering and Applications
基 金:国家自然科学基金(No.60603023);辽宁省教育厅重点实验室项目(No.LS2010180)~~
摘 要:提出一种基于句子相似度的论文抄袭检测模型。利用局部词频指纹算法对大规模文档进行快速检测,找出疑似抄袭文档。根据最长有序公共子序列算法计算句子间的相似度,并标注抄袭细节,给出抄袭依据。在标准中文数据集SOGOU-T上进行的实验表明,该模型具有较强的局部信息挖掘能力,在一定程度上克服了现有的论文抄袭检测算法精度不高的缺点。A new model for plagiarism-identification of scientific papers based on sentence similarity is presented.Large-scale texts are quickly detected with Local Word-Frequency Fingerprin(tLWFF) to find suspected plagiarism ones.Sentence similari-ty is computed according to the Longest Sorted Common Subsequence(LSCS) between source texts and destination texts.The algorithm can mark plagiarism details,and show evidence.The identification experiments on the SOGOU-T database are done with this model.The results show it has higher information mining capacity,and partly overcomes the shortage of low-er precision on existing plagiarism-identification of scientific papers.
关 键 词:句子相似度 抄袭检测 局部词频 最长有序公共子序列
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.139.59.149