Dynamic Hash TRIE算法的研究与分析  

Research and Analysis of Dynamic Hash TRIE Algorithm

在线阅读下载全文

作  者:杨来[1] 何清[1] 许立达[1] 史忠植[1] 

机构地区:[1]中国科学院计算技术研究所智能信息处理重点实验室

出  处:《广西师范大学学报(自然科学版)》2008年第1期134-138,共5页Journal of Guangxi Normal University:Natural Science Edition

基  金:国家863计划基金资助项目(2006AA01Z128);国家973计划基金资助项目(2007CB311004);国家自然科学基金资助项目(60435010,60675010);北京市自然科学基金资助项目(4052025)

摘  要:分词是中文信息处理的基础,词典查询又是分词的基础。另外,搜索引擎需要对访问过的URL进行唯一性检测。针对汉语词典查询和唯一性检测这两个问题,提出Dynamic Hash TRIE词典算法,有效地压缩了节点,没有单链树枝。通过Java和C++编程实验,对比了多个同类算法,证明该算法对于中文词典具有较高的查询性能,灵活的可拓展性。另外还提出了一个词库测试的标准NormTest,可以排除机器性能的干扰来对比各种算法。Segment is the basis of Chinese information processing; meanwhile dictionary searching is the basis of segment. And it is necessary for search engine to check the uniqueness of visited URL. This paper proposes the Dynamic Hash TRIE Algorithm in allusion to Chinese dictionary searching and checking uniqueness which can compress singleton branch. By the Java and C+ + experiments,it is proved that the algorithm performs exceedingly with flexible extensibility for Chinese dictionary. A baseline NormTest for testing dictionary is introduced,that can be as a norm in comparing other algorithm regardless of the performance of local machine.

关 键 词:机器检索 唯一性 程序设计 自然语言处理 

分 类 号:G354.4[文化科学—情报学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象