检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]广东商学院教育技术中心,广东广州510320 [2]华南理工大学计算机学院,广东广州510640 [3]广州卷烟一厂信息计算中心,广东广州510310
出 处:《系统工程》2004年第9期107-110,共4页Systems Engineering
基 金:广东省科技攻关项目(A1020103)
摘 要:根据信息学理论和贝叶斯语义模型,提出一种有效特征词发现方法,利用该方法对训练文本的原始文本特征词集进行聚类,对测试文本进行分类计算和类别标注。闭式测试的结果表明,文本识别的正确率达到了90%以上,该算法对互联网信息处理有较好的应用价值。According to information theory and Bayesian Semantic model, this paper puts forward an effective text feature extract method which clusters the original text features of the training documents into words clusters. With this method, the test documents are classified and labeled by the text categorization system. The close experiments show that the precision is more than 90%. It is supposed to have a good application prospect in the field of internet information processing.
关 键 词:文本分类 特征抽取 KL距离 正态分布 贝叶斯概率
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.112