检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学技术大学计算机科学技术系,安徽合肥230027
出 处:《微电子学与计算机》2005年第12期24-27,共4页Microelectronics & Computer
基 金:国家自然科学基金项目(70171052);皖泰开发项目资助(143-150401)
摘 要:目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档。针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进。在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档。实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高。Most automatic text categorization systems are using the VSM to present documents. The general text presentation model using VSM usually cannot present the concept of the document. This paper presents an improvement of the model. On the base of VSM, the high frequency words in the same window are selected, and then the Apriori algorithm is used to select the maximum frequent term co-occurrence set, which is used to expand the VSM to present the document. It is shown in the experiment that the improved model enhances the performance of the automatic text categorization system, comparing to the traditional VSM model.
关 键 词:文本自动分类 向量空间模型 APFIORI算法 词共现
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.185