福建省教育厅A类人文社科/科技研究项目(JA12335)

作品数:5被引量:21H指数:3
导出分析报告
相关作者:郭文龙曾光清更多>>
相关机构:福建江夏学院更多>>
相关期刊:《鲁东大学学报(自然科学版)》《计算机工程与应用》《宜春学院学报》《衡水学院学报》更多>>
相关主题:相似重复记录清洗方法中文地址大数据量行政区划更多>>
相关领域:自动化与计算机技术更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-5
视图:
排序:
基于长度过滤和有效权值的SNM改进算法被引量:7
《计算机工程与应用》2014年第19期123-127,共5页郭文龙 
福建省教育厅A类科技项目(No.JA12335);福建江夏学院青年科研人才培育基金(No.JXZ20130010)
异构数据库集成中产生了相似重复记录,但数量是有限的,采用传统的SNM算法进行检测,需要在窗口内对所有记录进行比对,效率不高。针对这一缺陷,提出一种基于长度过滤和有效权值的SNM改进算法,在窗口内根据两条记录的长度比例首先将不可能...
关键词:相似重复记录 数据清洗 有效权值 SNM算法 
异构数据库集成中相似重复记录清洗方法被引量:2
《宜春学院学报》2014年第3期37-39,共3页郭文龙 
福建省教育厅A类科技项目(No.JA12335);福建江夏学院青年科研人才培育基金项目(No.JXZ20130010)
异构数据库集成中产生了相似重复记录,如何消除这些记录进而提高数据质量是集成时必须解决的问题之一。提出在源数据库中进行第一次清洗,然后将所需数据抽取到临时数据库中,在临时数据库中进行格式等转换,再把数据导入数据仓库,最后在...
关键词:异构数据库 数据集成 数据仓库 相似重复记录 清洗 
基于SNM算法的大数据量中文地址清洗方法被引量:8
《计算机工程与应用》2014年第5期108-111,共4页郭文龙 
福建省教育厅A类科技项目(No.JA12335)
中文地址由行政区划地址和详细地址两部分组成,行政区划地址的处理可通过构建地址词典、分词、补充特征字等方式清洗,目前技术较为成熟。详细地址则随我国城镇化的发展而不断变化,且新的地址层出不穷,导致其清洗和规范化工作极其困难。...
关键词:中文地址 行政区划 详细地址 特征字 清洗 
一种客户关系数据库相似重复记录清洗算法被引量:3
《衡水学院学报》2014年第1期15-17,共3页郭文龙 
福建省教育厅A类科技项目(JA12335)
客户关系数据库中拥有大量的客户记录,其中许多记录构成相似重复记录,检测、清洗进而合并相似重复记录可以提高存储空间的利用率,还可以加快记录查询的速度.在研究客户记录的基础上,提出一种客户关系数据库相似重复记录清洗算法,算法首...
关键词:客户关系 相似重复记录 清洗 合并 
基于特征字的中文地址要素编码和清洗方法被引量:1
《鲁东大学学报(自然科学版)》2013年第4期299-302,共4页郭文龙 曾光清 
福建省教育厅A类科技项目(JA12335)
在对中文地址编码技术进行研究的基础上,把中文地址切分为地址要素和特征字,提出了中文地址清洗模型,制定了对中文地址要素的编码规则,并基于该编码规则设计了中文地址清洗算法,实验证明了该文方法具有较好的清洗效果.
关键词:中文地址 编码规则 清洗 
检索报告 对象比较 聚类工具 使用帮助 返回顶部