一种改进的TFIDF网页关键词提取方法被引量：31

AN IMPROVED TFIDF-BASED APPROACH TO EXTRACT KEY WORDS FROM WEB PAGES

出　　处：《计算机应用与软件》2011年第5期25-27,共3页Computer Applications and Software

基　　金：国家自然科学基金(90920004;60970056;60873150);江苏省自然科学基金(BK2008160);江苏省高校自然科学重大基础研究项目(08KJA520002)

摘　　要：传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取的方法。实验结果表明:该方法明显优于传统方法,能够抽取到令人满意的结果。Although the classical TFIDF-based keywords extraction method is easy to implement and has low time cost,its results are not good enough to acquire features which play key roles in the text content.This paper proposes such a method,it uses the improved TFIDF formula to extract keywords by means of extended synonym dictionary and based on the considerations of the structure feature of Chinese texts and the lexical category feature of Chinese words and phrases.Experimental results show that our method outperforms the classical method evidently,and is able to extract satisfied results.

关键词：文本结构关键词抽取 TFIDF

分类号：TP311.13[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种改进的TFIDF网页关键词提取方法被引量：31

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种改进的TFIDF网页关键词提取方法 被引量：31

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

一种改进的TFIDF网页关键词提取方法被引量：31