检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:平源[1,2] 周亚建[1,2] 张海滨[3] 王枞[1,2] 杨义先[1,2]
机构地区:[1]北京邮电大学网络与信息攻防技术教育部重点实验室,北京100876 [2]北京邮电大学灾备技术国家工程实验室,北京100876 [3]北京工业大学应用数理学院,北京100124
出 处:《北京工业大学学报》2012年第9期1389-1395,共7页Journal of Beijing University of Technology
基 金:国家'863'计划资助项目(2009AA01Z430);国家自然科学基金资助项目(60972077)
摘 要:为使文本向量能准确表达文本信息、提升文本分类效果,提出了一种强化类别贡献的文本特征权重方案.利用后验概率定义了特征词的类别贡献度函数,结合相关频率权重因子,得到兼顾类别贡献度与类间分布差异的文本特征权重量化方案.在4个标准语料集上的测试结果表明,该方案实现简单,能更准确地刻画不同特征对分类的贡献差异,优化文本表示,并显著地提高文本分类效果.To accurately express text information by vector and improve the performance of text categorization, a term weighting scheme with enhanced category contribution for text categorization was proposed. Combining the term weighting factor of relevance frequency with the defined category contribution function based on posterior probability, the scheme gave consideration to the description of both category contribution and distributional differences among categories for terms. Experimental results on the four standard corpora show that the proposed scheme do accurately describe the contributions of different features on the classification, optimize the works of text representation and outperform the state- of-the-art methods.
关 键 词:文本表示 文本分类 相关频率 类别贡献度 支持向量机
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28