基于体裁的中文网页分类的特征选取  被引量:4

Feature selection of Chinese web page categorization based on genre

在线阅读下载全文

作  者:黄臻臻[1] 吴扬扬[1] 

机构地区:[1]华侨大学计算机科学系,福建泉州362021

出  处:《计算机工程与设计》2007年第11期2743-2745,共3页Computer Engineering and Design

基  金:福建省科技计划基金项目(20041014);福建省自然科学基金项目(A0510020)。

摘  要:探讨基于体裁的中文网页分类的特征项选取问题。词汇特征方面,结合自动抽取和人工归纳的方式来获得.通过改进PAT树存储结构,进行序列挖掘来获得频繁字符串特征,使得文本分类系统摆脱对切词处理和词典的依赖,并提出了模糊字符串模式的特征表达方式。此外,特征集中融入了文本的形式特征,并根据网页的特点,引入链接信息特征。实现了基于体裁的中文网页分类系统,结果表明分类效果得到了有效的改善。Abstract: This paper gives a research on feature selection of Chinese web page categorization based on genre. Character features are gained by combining automatic extraction with artificial induction. Frequent character features are extracted by sequence mining that amends the storage structure of PAT-Tree, so that the classifier can shake offthe burden of words segmentation procedures and large dic- tionaries. A new approach of feature expression based on fuzzy character pattern is proposed. Furthermore, the feature sets contain the form features of the documents and include the features of link information, Chinese web page categorization system based on genre is implemented. The results of experiment show that the performance of classifier is improved by the method.

关 键 词:网页分类 体裁 特征选取 序列挖掘 模糊字符串模式 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象