一种新的基于对称性的字符串相似性处理算法  

A new algorithm towards efficient processing of string similarity based on symmetry

在线阅读下载全文

作  者:王燕[1] 周军锋[1] 汤显[2] 陈子阳[1] 郭景峰[1] 

机构地区:[1]燕山大学信息科学与工程学院,河北秦皇岛066004 [2]燕山大学经济管理学院,河北秦皇岛066004

出  处:《燕山大学学报》2014年第1期49-56,共8页Journal of Yanshan University

基  金:国家自然科学基金资助项目(61073060;61040023);河北省重点基础研究项目(10963527D);河北省科学技术研究与发展计划科技支撑计划项目(11213578)

摘  要:对于给定的两个字符串集合,基于相似度的连接操作可用于从中找出相似的字符串对,该操作是数据清洗、数据集成以及协同过滤等应用中的核心操作之一,其执行效率直接影响系统的整体性能。本文提出一种高效计算字符串集合间连接操作的算法Trie-TSS,该方法基于trie树进行处理,利用对称性来减少冗余计算。提出一种旨在减少冗余编辑距离计算操作的优化技术来进一步提升系统性能。最后通过实验验证了Trie-TSS算法的高效性。For two given sets of strings, join operation is used to find similar string pairs based on string similarity. It is one of the essential operations in many applications, such as data integration, data cleaning, and collaborative filtering. A new trie-based al- gorithm, namely Trie-TSS, which uses the symmetry of edit distance to reduce redundant computation, is proposed. Then a new pruning technique is suggested to further reduce the unnecessary computation so as to improve the overall performance. The ex-perimental results show the efficiency of our method according to various metrics.

关 键 词:字符串相似性 TRIE树 编辑距离 Trie-TSS 优化技术 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象