文本自动分类系统文本预处理方法的研究  被引量:15

Study on New Pretreatment Method for Chinese Text Classification System

在线阅读下载全文

作  者:周钦强[1] 孙炳达[2] 王义[1] 

机构地区:[1]广东工业大学自动化学院,广东广州510090 [2]广东技术师范学院,广东广州510665

出  处:《计算机应用研究》2005年第2期85-86,共2页Application Research of Computers

摘  要:在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量。Presents a new text pretreatment method that applying programme flows control to eliminate the single Chinese word, pure English words, number and Chinese words containing English letter or maths symbol from the original text vector. Consequently the features that represent the text turn into the pure Chinese term. As a result, not only dimension of original text vector is deduced greatly but the information contents of text vector are improved enormously.

关 键 词:文本分类 文本预处理 停用词 中文分词 

分 类 号:TP319[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象