基于新的关键词提取方法的快速文本分类系统  被引量:17

Research on Fast Text Classifier Based on New Keywords Extraction Method

在线阅读下载全文

作  者:罗杰[1] 陈力[1] 夏德麟[1] 王凯[1] 

机构地区:[1]武汉大学电子信息学院,湖北武汉430079

出  处:《计算机应用研究》2006年第4期32-34,共3页Application Research of Computers

基  金:国家自然科学基金资助项目(90204008)

摘  要:关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法(FS),并利用TFIDF算法来筛选出关键词以完成将W eb文档进行快速有效分类的目的。实验表明,该方法在不影响分类准确率的情况下,分类的速度明显提高。Keyword extraction is the sticking point for Automatic Classification and Text Data Mining Application. Taking traits of nature language into consideration, this paper provides a new way called Fast Segmentation (FS) which is based on verb, virtual words and stop words to improve traditional segmentation technique. Then, we filter result of FS by TFIDF Algorithm so that we can classify Web text fast and efficiently. The experiment has indicated that without reducing the correct rate of classification, the speed of processing has improved distinctly.

关 键 词:计算机应用 中文信息处理 关键词提取 WEB文档分类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象