检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京工业大学信息科学与工程学院,南京210009 [2]安徽师范大学信息管理中心,安徽芜湖241000
出 处:《计算机应用研究》2010年第2期472-474,共3页Application Research of Computers
基 金:国家自然科学基金资助项目(60703071);安徽省高校省级自然科学研究重点项目(KJ2009A63)
摘 要:从可信计算角度,提出一种可靠信任推荐文本分类特征权重算法,分析了特征在文档中的特性,基于Beta分布函数研究了特征与文档类之间的信任关系,建立特征权重计算模型,并实现简单高效的线性文本分类器。在比较实验中采用20newsgroup和复旦中文语料集。与TFIDF算法进行性能比较,实验结果显示该算法性能较TFIDF显著提高,并对非平衡语料具有良好的适应性。By reliable trust recommendation, used a feature weighting approach to construct the simplest linear weighting classifier in the procedure of which characteristics of feature were explored, while the trust relationship between features and categories was developed based on Beta distribution function. Experiments with 20newsgroup and Fudan Chinese evaluation data collection reported shows that this new algorithm generally outperformed TFIDF, and has good adaptability to non-equilibrium corpus.
关 键 词:文本分类 特征权重 可信计算 概率确定性密度 自然语言处理
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145