检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学院计算技术研究所智能信息处理重点实验室
出 处:《广西师范大学学报(自然科学版)》2008年第1期134-138,共5页Journal of Guangxi Normal University:Natural Science Edition
基 金:国家863计划基金资助项目(2006AA01Z128);国家973计划基金资助项目(2007CB311004);国家自然科学基金资助项目(60435010,60675010);北京市自然科学基金资助项目(4052025)
摘 要:分词是中文信息处理的基础,词典查询又是分词的基础。另外,搜索引擎需要对访问过的URL进行唯一性检测。针对汉语词典查询和唯一性检测这两个问题,提出Dynamic Hash TRIE词典算法,有效地压缩了节点,没有单链树枝。通过Java和C++编程实验,对比了多个同类算法,证明该算法对于中文词典具有较高的查询性能,灵活的可拓展性。另外还提出了一个词库测试的标准NormTest,可以排除机器性能的干扰来对比各种算法。Segment is the basis of Chinese information processing; meanwhile dictionary searching is the basis of segment. And it is necessary for search engine to check the uniqueness of visited URL. This paper proposes the Dynamic Hash TRIE Algorithm in allusion to Chinese dictionary searching and checking uniqueness which can compress singleton branch. By the Java and C+ + experiments,it is proved that the algorithm performs exceedingly with flexible extensibility for Chinese dictionary. A baseline NormTest for testing dictionary is introduced,that can be as a norm in comparing other algorithm regardless of the performance of local machine.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.43