一种通过筛选和位置感知精准提取资讯类网页标题的方法  

A Method for Accurately Extracting Titles of Information Webpages Using Screening and Location Awareness

在线阅读下载全文

作  者:邓子云[1] Deng Ziyun(School of Hunan Business,Changsha Commerce&Tourism College,Changsha 410116,China)

机构地区:[1]长沙商贸旅游职业技术学院湘商学院,长沙410116

出  处:《信息化研究》2021年第4期8-15,共8页INFORMATIZATION RESEARCH

基  金:国家自然科学青年基金“小样本驱动的风电监控系统网络攻击深度检测方法”(No.62103143);湖南省自然科学基金课题“一种支持多过滤方法组合的海量网页过滤智能引擎的研制与应用”(No.2020JJ7091)。

摘  要:文章提出了一种通过筛选和位置感知精准提取资讯类网页标题的方法。这种方法包括获得备选标题列表,数据预处理,根据文本的位置筛选,根据文本中的标点筛选,根据位置感知来提取标题。采用从一个资讯类网页的备选标题列表中去除链接文本的exceptLinkText算法和用于感知备选标题列表中真正标题的下标的obPosition算法。实验结果表明,本文提出的精准提取资讯类网页标题的方法对实验数据样本的准确度为100%,比经典的相似度计算方法高出9%,比经典的TF-IDF方法的准确度高出17%。In order to accurately extract the title of information webpages,the article proposes a method for accurately extracting the title of information webpages through filtering and location awareness.This method includes obtaining a list of candidate titles,data preprocessing,filtering based on the location of the text,filtering based on punctuation in the text,and extracting titles based on location awareness.It adopts the exceptLink Text algorithm to remove the link text from the candidate title list of an information webpage and the obPosition algorithm to perceive the subscript of the real title in the candidate title list.Experimental results show that the accuracy of the proposed method for accurately extracting information webpage titles on experimental data samples is 100%,which is 9%higher than the classic similarity calculation method,and 17%higher than the accuracy of the classic TF-IDF method.

关 键 词:筛选 位置感知 网页标题 提取方法 准确度 

分 类 号:TN929[电子电信—通信与信息系统] TP393[电子电信—信息与通信工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象