强化类别贡献的文本特征权重方案  

Term Weighting Scheme With Enhanced Category Contribution for Text Categorization

在线阅读下载全文

作  者:平源[1,2] 周亚建[1,2] 张海滨[3] 王枞[1,2] 杨义先[1,2] 

机构地区:[1]北京邮电大学网络与信息攻防技术教育部重点实验室,北京100876 [2]北京邮电大学灾备技术国家工程实验室,北京100876 [3]北京工业大学应用数理学院,北京100124

出  处:《北京工业大学学报》2012年第9期1389-1395,共7页Journal of Beijing University of Technology

基  金:国家'863'计划资助项目(2009AA01Z430);国家自然科学基金资助项目(60972077)

摘  要:为使文本向量能准确表达文本信息、提升文本分类效果,提出了一种强化类别贡献的文本特征权重方案.利用后验概率定义了特征词的类别贡献度函数,结合相关频率权重因子,得到兼顾类别贡献度与类间分布差异的文本特征权重量化方案.在4个标准语料集上的测试结果表明,该方案实现简单,能更准确地刻画不同特征对分类的贡献差异,优化文本表示,并显著地提高文本分类效果.To accurately express text information by vector and improve the performance of text categorization, a term weighting scheme with enhanced category contribution for text categorization was proposed. Combining the term weighting factor of relevance frequency with the defined category contribution function based on posterior probability, the scheme gave consideration to the description of both category contribution and distributional differences among categories for terms. Experimental results on the four standard corpora show that the proposed scheme do accurately describe the contributions of different features on the classification, optimize the works of text representation and outperform the state- of-the-art methods.

关 键 词:文本表示 文本分类 相关频率 类别贡献度 支持向量机 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象