检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:邓子云[1] Deng Ziyun(School of Hunan Business,Changsha Commerce&Tourism College,Changsha 410116,China)
机构地区:[1]长沙商贸旅游职业技术学院湘商学院,长沙410116
出 处:《信息化研究》2021年第4期8-15,共8页INFORMATIZATION RESEARCH
基 金:国家自然科学青年基金“小样本驱动的风电监控系统网络攻击深度检测方法”(No.62103143);湖南省自然科学基金课题“一种支持多过滤方法组合的海量网页过滤智能引擎的研制与应用”(No.2020JJ7091)。
摘 要:文章提出了一种通过筛选和位置感知精准提取资讯类网页标题的方法。这种方法包括获得备选标题列表,数据预处理,根据文本的位置筛选,根据文本中的标点筛选,根据位置感知来提取标题。采用从一个资讯类网页的备选标题列表中去除链接文本的exceptLinkText算法和用于感知备选标题列表中真正标题的下标的obPosition算法。实验结果表明,本文提出的精准提取资讯类网页标题的方法对实验数据样本的准确度为100%,比经典的相似度计算方法高出9%,比经典的TF-IDF方法的准确度高出17%。In order to accurately extract the title of information webpages,the article proposes a method for accurately extracting the title of information webpages through filtering and location awareness.This method includes obtaining a list of candidate titles,data preprocessing,filtering based on the location of the text,filtering based on punctuation in the text,and extracting titles based on location awareness.It adopts the exceptLink Text algorithm to remove the link text from the candidate title list of an information webpage and the obPosition algorithm to perceive the subscript of the real title in the candidate title list.Experimental results show that the accuracy of the proposed method for accurately extracting information webpage titles on experimental data samples is 100%,which is 9%higher than the classic similarity calculation method,and 17%higher than the accuracy of the classic TF-IDF method.
分 类 号:TN929[电子电信—通信与信息系统] TP393[电子电信—信息与通信工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7