检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]解放军理工大学指挥自动化学院,南京210007 [2]解放军总参第63研究所,南京210007
出 处:《计算机应用研究》2010年第12期4523-4525,共3页Application Research of Computers
基 金:中国博士后科学基金资助项目(20090461425);江苏省博士后科研资助计划项目(0901014B)
摘 要:针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似重复记录检测的查全率的同时,也能获得较高的查准率。The Chinese character is treated as the equivalent of western character when computing edit distance of strings composed of Chinese and western characters. Considering from Chinese input methods,this paper proposed a new way to calculate edit distance based on PinYin code and WuBi code of Chinese character. Also proposed the algorithm of fusing three edit distances to get string similarity. Experiment results show that the new method can improve the recall rate of approximately duplicate records detection,besides getting high precision rate.
关 键 词:数据清洗 相似重复记录 字符串匹配 字符串相似度 编辑距离
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.4