结合文本语义图和词频统计的网页分类算法研究  被引量:2

Research on Web Page Classification Algorithm Combining Text Semantic Graph and Word Frequency Statistics

在线阅读下载全文

作  者:周文文 韩斌[1] 黄树成[1] ZHOU Wenwen;HAN Bin;HUANG Shucheng(School of Computer Science,Jiangsu University of Science and Technology,Zhenjiang 212003)

机构地区:[1]江苏科技大学计算机学院,镇江212003

出  处:《计算机与数字工程》2020年第6期1265-1268,1313,共5页Computer & Digital Engineering

基  金:国家自然科学基金项目(编号:61772244);江苏省研究生科研与实践创新计划项目(编号:SJCX18_0771)资助。

摘  要:为解决网页分类算法中仅考虑文本内容或仅考虑词义本身而引起的角度过于单一的问题,提出一种在文本语义图的基础上加入对文本词语频次考察的网页分类算法。首先通过词林相似度和相关性挖掘两种方式构建文本语义图,满足算法对文本词义相似性和相关性两方面的考察要求,引入PageRank算法计算词语词义权重值。然后对词频做统计,充分考虑词语在类内文本空间和整个文本空间的分布,对IDF算法进行改进,得到词频权重值。结合两种方式得到最终特征向量,进行网页分类。In order to solve the problem of single angle caused by considering only text content or meaning itself in network classification,a Web classification algorithm based on text semantic graph is proposed. Firstly,the text semantic map is constructed by word forest similarity and correlation mining,which meets the requirements of the text semantic similarity and correlation. PageRank algorithm is introduced to calculate the word semantic weight. Then,the word frequency is counted,and the distribution of words in the text space and the whole text space is fully considered. The formula is typed here. The IDF algorithm is improved to get the weight of word frequency. The feature vectors are combined in two ways to classify web pages.

关 键 词:网页分类 文本语义图 PAGERANK IDF 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象