多语种网络文本快速新词抽取  被引量:2

Fast New Words Extraction from Multi-lingual Web Texts

在线阅读下载全文

作  者:刘冰洋[1,2] 刘倩[1,2] 张瑾[1] 刘欣然[3] 程学旗[1] 

机构地区:[1]中国科学院计算技术研究所网络数据科学与工程研究中心,北京100190 [2]中国科学院大学,北京100190 [3]国家计算机网络应急技术处理协调中心,北京100029

出  处:《中文信息学报》2014年第2期78-84,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金(609933005;60903139);国家242专项(2011A001;2012G129);973项目(2013CB329601)

摘  要:从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改进的统计方法在双后缀树上以线性时间统计重复串与邻接类别,并计算字符串的整体度,同时通过剪枝大幅度减少计算量,在中、英文语料上较好地实现了新词的抽取及排序。Extracting new words from web texts is one key problem in the area of information processing with direct application in information retrieval, public opinion, dictionary compilation, Chinese word segmentation and other fields. A language-independent method is implemented to fast extract new words from web texts:Encoding multi- lingual texts into a uniform binary stream, extracting repeat strings, calculating the adjacency variety and string in- tegrity measurement. Two suffix trees in 4-bit based structureare used to calculate these statistics in linear time. This method outputs new words and their order on both Chinese and English web texts.

关 键 词:新词 邻接类别 字符串整体度 后缀树 多语言 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象