检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]东北大学软件中心,沈阳110004
出 处:《计算机科学》2004年第6期64-67,共4页Computer Science
基 金:国家"八六三"高技术计划资助项目(863-306-ZD02-02-6)
摘 要:传统向量空问模型(VSM)特征间无关联,且不能动态增量训练,不适合主题和焦点实时变化的Internet新闻信息,为此提出了一种改进的文本实时分类模型——动态向量空间模型(DVSM)。通过对VSM的特征提取策略进行改进,提出了特征聚合和增量训练算法。通过将对分类有相同贡献的文本特征词聚合,使用它们共同的分类贡献向量特征模式作为文本特征向量的基本维;采用增量动态训练改变对分类贡献已改变的特征词在文本向量的特征模式中的位置,适应Internet新闻信息的实时特性。使用静态训练集和动态训练集进行的DVSM与传统VSM的对比实验表明,采用特征聚合和动态训练的DVSM在Internet新闻实时分类中优势效果明显优越。Traditional Vector Space Model does not consider the relationship between features, and is not suitable for dynamic training. Focus on the Internet news with dynamically changing topics and focus, a Dynamic VSM (DVSM) is proposed. Multiple discriminating features with similar contribution to classification are combined into one pattern, which is used as the basic feature dimension. When new samples need to be learned, the changed discriminating features are moved between patterns with dynamic incremental training method for the real-time characteristics of Internet. Comparison experiments using static and dynamic training sets respectively show that DVSM outperforms the traditional model significantly in Internet News Real Time Categorization.
关 键 词:动态向量空间模型 特征聚合 增量动态训练 Internet新闻分类 DVSM 分类贡献向量特征模式
分 类 号:TP311.5[自动化与计算机技术—计算机软件与理论] TP393.09[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.53