一种改进的VSM及其在文本自动分类中的应用  被引量:3

A Modified VSM and its Application to Automatic Text Categorization

在线阅读下载全文

作  者:张婷慧[1] 耿焕同[1] 蔡庆生[1] 

机构地区:[1]中国科学技术大学计算机科学技术系,安徽合肥230027

出  处:《微电子学与计算机》2005年第12期24-27,共4页Microelectronics & Computer

基  金:国家自然科学基金项目(70171052);皖泰开发项目资助(143-150401)

摘  要:目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档。针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进。在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档。实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高。Most automatic text categorization systems are using the VSM to present documents. The general text presentation model using VSM usually cannot present the concept of the document. This paper presents an improvement of the model. On the base of VSM, the high frequency words in the same window are selected, and then the Apriori algorithm is used to select the maximum frequent term co-occurrence set, which is used to expand the VSM to present the document. It is shown in the experiment that the improved model enhances the performance of the automatic text categorization system, comparing to the traditional VSM model.

关 键 词:文本自动分类 向量空间模型 APFIORI算法 词共现 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象