一种中文文档的非受限无词典抽词方法被引量：28

A Domain-independent Dictionary-free Lexical Acquisition Model For Chinese Document

出　　处：《中文信息学报》2001年第6期33-39,共7页Journal of Chinese Information Processing

基　　金：国家自然科学基金项目 (6 990 30 0 6 );教育部高等学校骨干教师资助计划(教技司[2 0 0 0 ]6 5号 );中国博士后科学基金(中博基 [1997]11号 )

摘　　要：本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用。A domain independent dictionary free lexical acquisition model is presented in this paper,which introduces a self increasing algorithm to acquire the co occurrence patterns of Chinese characters,and introduces some criteria such as support and confidence to filter these co occurrence patterns to get lexical items.Experiments show that it can acquire lexical items with high frequency effectively and efficiently without the support of the dictionary and the supervised learning in term of corpus.The model proposed in this paper particularly suits for lexical frequency sensitive but time critical Chinese information processing applications,such as real time automatic Chinese text classification systems.

关键词：中文信息处理自动分词非受限无词典抽词汉字结构模式中文文档抽词速度

分类号：TP391.12[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种中文文档的非受限无词典抽词方法被引量：28

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种中文文档的非受限无词典抽词方法 被引量：28

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

一种中文文档的非受限无词典抽词方法被引量：28