基于PAT TREE统计语言模型与关键词自动提取被引量：12

PAT－TREE Based Language Model and Automatic Keyword Extraction

出　　处：《计算机工程与应用》2001年第15期17-19,35,共4页Computer Engineering and Applications

基　　金：国家863计划的资助(编号:863-306-ZD02-02-7)

摘　　要：未登录关键词的识别是中文信息处理中的一个关键问题。文章利用PAT TREE实现了一种可变长统计语言模型，由于不存在n元统计语言模型的截断效应，从而对待提取的关键词的长度没有限制。在该模型的基础上，通过相关性检测，从540M汉语语料中自动提取出了12万个关键词候选字串。最后，经过分析和筛选，候选字串的准确度由82．3％上升到96．1％。实验表明，基于PAT TREE的统计语言模型是实现未登录词提取的有力工具。： Detecting the words out of vocabulary is a serious problem in Chinese language processing．This paper presents a vari－gram language model based on PAT－Tree，by which we can get the statistical information of any strings of any length in the corpus．With the mutual information produced by the language model，we extracted about 124，000 keyword candidates from a 540Mb corpus．After filtered by the lexical and statistical rules，the precison of the keyword candidates inceased from 82．3％ to 97．1％．Althought there are still any difficulties left，the PAT－Tree based language model is proved very useful in keyword extraction．

关键词：信息检索统计语言模型关键词自动提取 PATtree INTERNET

分类号：TP393.4[自动化与计算机技术—计算机应用技术] G354.4[自动化与计算机技术—计算机科学与技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于PAT TREE统计语言模型与关键词自动提取被引量：12

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于PAT TREE统计语言模型与关键词自动提取 被引量：12

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于PAT TREE统计语言模型与关键词自动提取被引量：12