检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《湘潭大学自然科学学报》2016年第2期99-103,共5页Natural Science Journal of Xiangtan University
基 金:河南省科技厅科技重点攻关项目(142102210226)
摘 要:针对现有Web新闻文本分类方法准确率低且不能适应文本类型变化的问题,提出一种基于进化模糊规则的Web新闻文本挖掘和分类方法.首先,对每篇Web文本进行术语提取,并利用词频-逆向文档频率(TF-IDF)算法过滤掉一些具有较低描述能力的术语.然后,基于计算收集到的新的新闻文本内容与类别之间的余弦距离,利用eClass0分类器创建和更新模糊规则的数量和属性.最后,根据模糊规则推理和余弦距离进行文本分类.实验结果表明,该方法具有较高的正确分类率,且能够自适应Web新闻文本类别的变化.For the issues that the existing "Web news text classification accuracy is low and can’t adapt tothe change of text types, a Web news text mining and classification method based on evolving fuzzy rule isproposed. F irstly, the term of each Web text is extracted, and the term frequency-inverse document frequency(TF-IDF) algorithm is used to filter out some terms with lower description ability. Then, the cosinedistance between the new news text content and category is calculated, and the cosine distance is used tocreate and update the fuzzy rules and the number of attributes by eClassO classifier. F in ally, text classificationis done according to the fuzzy rule reasoning and cosine distance. The experimental results show thatthis method has higher correct classification rate, and can adapt the change of Web news text category.
关 键 词:WEB新闻 文本分类 进化模糊规则 余弦距离 词频-逆向文档频率算法
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7