检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《计算机工程与设计》2007年第11期2743-2745,共3页Computer Engineering and Design
基 金:福建省科技计划基金项目(20041014);福建省自然科学基金项目(A0510020)。
摘 要:探讨基于体裁的中文网页分类的特征项选取问题。词汇特征方面,结合自动抽取和人工归纳的方式来获得.通过改进PAT树存储结构,进行序列挖掘来获得频繁字符串特征,使得文本分类系统摆脱对切词处理和词典的依赖,并提出了模糊字符串模式的特征表达方式。此外,特征集中融入了文本的形式特征,并根据网页的特点,引入链接信息特征。实现了基于体裁的中文网页分类系统,结果表明分类效果得到了有效的改善。Abstract: This paper gives a research on feature selection of Chinese web page categorization based on genre. Character features are gained by combining automatic extraction with artificial induction. Frequent character features are extracted by sequence mining that amends the storage structure of PAT-Tree, so that the classifier can shake offthe burden of words segmentation procedures and large dic- tionaries. A new approach of feature expression based on fuzzy character pattern is proposed. Furthermore, the feature sets contain the form features of the documents and include the features of link information, Chinese web page categorization system based on genre is implemented. The results of experiment show that the performance of classifier is improved by the method.
关 键 词:网页分类 体裁 特征选取 序列挖掘 模糊字符串模式
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.14.135.79