检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京大学遥感与地理信息研究所空间智能计算实验室,北京100871
出 处:《太原理工大学学报》2008年第S1期52-55,共4页Journal of Taiyuan University of Technology
基 金:国家重点研究基础发展规划(973)项目(2006CB70130000)
摘 要:提出了一种基于统计方法和分词的匹配模型,该模型能够根据简称找出最可能的全称。这一模型由三个部分组成:针对不同类别的全称,对兴趣点全称进行分类,将全称划分成机构、公司、行业、区域和未知五类单词;把单词按照长度分为六类,然后在此基础上建立隐马尔可夫统计模型;在越频繁使用的全称越有可能产生简称的假设下,建立一个流行度统计模型。实验表明上述模型的首选准确率达到近85%,比现有搜索引擎的匹配能力有了显著的提高。This paper provides a model based on statistical methods and segmentation,which can retrieve the full name matching the abbreviation mostly.This model consists of three parts: The full names of POI were firstly segmented and the segments were classified as one of organizations,companies,industry,location or unknown;the segments were classified into 6 classes according to their length,then,hidden Markov model was built with respect to every class mentioned above;the more popular a POI name is,the more likely...
关 键 词:简称 兴趣点名称匹配 中文信息处理 隐马尔科夫模型
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.112