检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:周文文 韩斌[1] 黄树成[1] ZHOU Wenwen;HAN Bin;HUANG Shucheng(School of Computer Science,Jiangsu University of Science and Technology,Zhenjiang 212003)
出 处:《计算机与数字工程》2020年第6期1265-1268,1313,共5页Computer & Digital Engineering
基 金:国家自然科学基金项目(编号:61772244);江苏省研究生科研与实践创新计划项目(编号:SJCX18_0771)资助。
摘 要:为解决网页分类算法中仅考虑文本内容或仅考虑词义本身而引起的角度过于单一的问题,提出一种在文本语义图的基础上加入对文本词语频次考察的网页分类算法。首先通过词林相似度和相关性挖掘两种方式构建文本语义图,满足算法对文本词义相似性和相关性两方面的考察要求,引入PageRank算法计算词语词义权重值。然后对词频做统计,充分考虑词语在类内文本空间和整个文本空间的分布,对IDF算法进行改进,得到词频权重值。结合两种方式得到最终特征向量,进行网页分类。In order to solve the problem of single angle caused by considering only text content or meaning itself in network classification,a Web classification algorithm based on text semantic graph is proposed. Firstly,the text semantic map is constructed by word forest similarity and correlation mining,which meets the requirements of the text semantic similarity and correlation. PageRank algorithm is introduced to calculate the word semantic weight. Then,the word frequency is counted,and the distribution of words in the text space and the whole text space is fully considered. The formula is typed here. The IDF algorithm is improved to get the weight of word frequency. The feature vectors are combined in two ways to classify web pages.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.171