检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《计算机应用与软件》2007年第12期121-122,127,共3页Computer Applications and Software
摘 要:综合考虑了富文本中的标题、关键词、主题、结构、词形、风格等描述信息,实现了一种富文本分类的方法。根据描述信息的范围和影响力不同给予相应的权重,改进了传统文本分类算法,使具有明显分类特征的特征发挥了较好的分类效果,抑制了权重较小的特征的干扰。实验表明,这种方法具有较好的准确率和召回率。Considering the describing information of title,keywords,subject, structure,style and morphology in rich format text,rich format text classification is implemented. Relative weights are offered to the describing information according to the effect range and degree,which im- proves conventional plain text classification algorithms, This enhanced weighting method leads to better classification result produced by the features with obvious classification characteristic, The interference of features with less weight is lessen, Experiment shows that the approach is of pretty good precision and recall rate.
关 键 词:文本分类 富文本分类 OpenDocument分类建模 特征选择
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.227.49.178