检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:彭雨龙 胡顺石[1,2] 吴涛[1,2] PENG Yulong;HU Shunshi;WU Tao(College of Geographic Sciences,Hunan Normal University,Changsha 410081,China;Key Laboratory of Geospatial Big Data Mining and Application,Hunan Province,Hunan Normal University,Changsha 410081,China)
机构地区:[1]湖南师范大学地理科学学院,湖南长沙410081 [2]湖南师范大学地理空间大数据挖掘与应用湖南省重点试验室,湖南长沙410081
出 处:《测绘通报》2022年第2期145-148,共4页Bulletin of Surveying and Mapping
基 金:湖南省自然科学基金项目(2018JJ3348);湖南省教育厅科学研究项目(17C0952)。
摘 要:地址匹配是地理编码过程中一个关键环节,是实现数据空间化的关键技术之一。针对当前中文地址匹配方法的精确率、匹配率和时间开销不能兼顾的问题,本文提出了一种多策略中文地址匹配方法。通过建立轻量级的词典进行中文地址分词,同时构建多叉树存储分词后的地址数据,匹配过程中结合模糊匹配和层级回溯匹配共同完成地址匹配工作,最终基于真实数据进行了试验。试验结果表明,该方法在匹配率、精确率和时间开销3个指标上较当前其他匹配方法表现得更加均衡。Address matching is a crucial link in geocoding and is one of the key technologies to realize data spatialization. Aiming at the problem that the matching rate, accuracy and time cost of the current Chinese address matching method cannot be taken into account, this study proposes a multi-strategy Chinese address matching method. The main idea is to build a lightweight dictionary for Chinese address segmentation and a multi-tree to store the address data after creating words participle. In the matching process, the fuzzy matching and hierarchical backtracking matching are combined to complete the address matching. Based on real data, this paper conducts experiments, and the results show that this method is more balanced than other matching methods in matching rate, accuracy rate and time cost.
关 键 词:地址匹配 中文地址分词 多叉树 层级回溯 余弦相似度
分 类 号:P208[天文地球—地图制图学与地理信息工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.188.73.229