基于向量空间模型的中文网页主题特征项抽取  被引量:10

Theme Feature Extraction of Chinese Webpage Based on Vector Space Model

在线阅读下载全文

作  者:代宽 赵辉[1] 韩冬[2] 宋天勇 

机构地区:[1]长春工业大学计算机科学与工程学院,长春130012 [2]长春工业大学软件职业技术学院,长春130012

出  处:《吉林大学学报(信息科学版)》2014年第1期88-94,共7页Journal of Jilin University(Information Science Edition)

基  金:吉林省科技厅自然科学基金资助项目(20130101060JC)

摘  要:为解决中文网页主题特征项抽取不精确的问题,对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础,结合主题网页的二分类情况对目前常用的文本特征项加权方法 TF-IDF(Term Frequency-Inverse Document Frequency)进行了改进,在此基础上结合网页的半结构化特征,综合考虑特征项的位置信息及其包含的信息量,提出了一种线性特征项加权计算方法。经实验验证,该方法可有效提高主题网页的召回率和准确率。In order to solve the problem of imprecision in Chinese webpage theme feature extraction,feature extraction algorithm for Chinese webpage theme is studied.Webpage theme feature extraction is the foundation of topic web crawler to calculate webpage correlation.Considering two classifications of theme webpage,we improved the commonly used text feature item weighting method of TF-IDF (Term Frequency-Inverse Document Frequency).We combine Semi-structured characteristics of webpage,feature's position information,present a new calculation method of linear feature item weighting.This method can effectively improve the theme webpage recall rate and precision rate.

关 键 词:词频-逆向文件频率 向量空间模型 特征项 相关度计算 信息增益 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象