一种中文文档的非受限无词典抽词方法  被引量:28

A Domain-independent Dictionary-free Lexical Acquisition Model For Chinese Document

在线阅读下载全文

作  者:金翔宇[1] 孙正兴[1] 张福炎[1] 

机构地区:[1]南京大学软件新技术国家重点实验室

出  处:《中文信息学报》2001年第6期33-39,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金项目 (6 990 30 0 6 );教育部高等学校骨干教师资助计划(教技司[2 0 0 0 ]6 5号 );中国博士后科学基金(中博基 [1997]11号 )

摘  要:本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用 。A domain independent dictionary free lexical acquisition model is presented in this paper,which introduces a self increasing algorithm to acquire the co occurrence patterns of Chinese characters,and introduces some criteria such as support and confidence to filter these co occurrence patterns to get lexical items.Experiments show that it can acquire lexical items with high frequency effectively and efficiently without the support of the dictionary and the supervised learning in term of corpus.The model proposed in this paper particularly suits for lexical frequency sensitive but time critical Chinese information processing applications,such as real time automatic Chinese text classification systems.

关 键 词:中文信息处理 自动分词 非受限无词典抽词 汉字结构模式 中文文档 抽词速度 

分 类 号:TP391.12[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象