多策略中文地址匹配方法  被引量:2

Multi-strategy chinese address matching method

在线阅读下载全文

作  者:彭雨龙 胡顺石[1,2] 吴涛[1,2] PENG Yulong;HU Shunshi;WU Tao(College of Geographic Sciences,Hunan Normal University,Changsha 410081,China;Key Laboratory of Geospatial Big Data Mining and Application,Hunan Province,Hunan Normal University,Changsha 410081,China)

机构地区:[1]湖南师范大学地理科学学院,湖南长沙410081 [2]湖南师范大学地理空间大数据挖掘与应用湖南省重点试验室,湖南长沙410081

出  处:《测绘通报》2022年第2期145-148,共4页Bulletin of Surveying and Mapping

基  金:湖南省自然科学基金项目(2018JJ3348);湖南省教育厅科学研究项目(17C0952)。

摘  要:地址匹配是地理编码过程中一个关键环节,是实现数据空间化的关键技术之一。针对当前中文地址匹配方法的精确率、匹配率和时间开销不能兼顾的问题,本文提出了一种多策略中文地址匹配方法。通过建立轻量级的词典进行中文地址分词,同时构建多叉树存储分词后的地址数据,匹配过程中结合模糊匹配和层级回溯匹配共同完成地址匹配工作,最终基于真实数据进行了试验。试验结果表明,该方法在匹配率、精确率和时间开销3个指标上较当前其他匹配方法表现得更加均衡。Address matching is a crucial link in geocoding and is one of the key technologies to realize data spatialization. Aiming at the problem that the matching rate, accuracy and time cost of the current Chinese address matching method cannot be taken into account, this study proposes a multi-strategy Chinese address matching method. The main idea is to build a lightweight dictionary for Chinese address segmentation and a multi-tree to store the address data after creating words participle. In the matching process, the fuzzy matching and hierarchical backtracking matching are combined to complete the address matching. Based on real data, this paper conducts experiments, and the results show that this method is more balanced than other matching methods in matching rate, accuracy rate and time cost.

关 键 词:地址匹配 中文地址分词 多叉树 层级回溯 余弦相似度 

分 类 号:P208[天文地球—地图制图学与地理信息工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象