检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:翁彬月 秦永彬[1,2] 黄瑞章 任丽娜[1,2,3] 田悦霖 Weng Binyue;Qin Yongbin;Huang Ruizhang;Ren Lina;Tian Yuelin(College of Computer Science&Technology,Guizhou University,Guiyang 550025,China;Guizhou Provincial Key Laboratory of Public Big Data,Guiyang 550025,China;Guizhou Light Industry Technical College,Guiyang 550025,China)
机构地区:[1]贵州大学计算机科学与技术学院,贵阳550025 [2]贵州省公共大数据重点实验室,贵阳550025 [3]贵州轻工职业技术学院,贵阳550025
出 处:《计算机应用研究》2022年第4期1043-1048,共6页Application Research of Computers
基 金:国家自然科学基金通用联合基金重点资助项目(U1836205);国家自然科学基金重大研究计划资助项目(91746116);国家自然科学基金资助项目(62066007,62066008);贵州省科技重大专项计划资助项目(黔科合重大专项字[2017]3002);贵州省科学技术基金重点资助项目(黔科合基础[2020]1Z055)。
摘 要:目前主流的网页抽取方法存在两大问题:提取信息类型单一,难以获取多种类新闻信息;多依赖HTML标签,难以扩展至不同来源。为此提出一种基于多维度文本特征的新闻网页信息提取方法,利用新闻文本的写作特点划分出写作、语义和位置特征,通过多通道卷积神经网络融合为多维度文本特征,用于提取多种类新闻网页信息;仅需少量数据集训练,就可提取新来源的新闻网页信息。实验结果表明,该方法在性能上高于当前最优方法。At present,there are two major problems in the mainstream webpage extraction methods:the extraction information type is single,and it is difficult to obtain multiple kinds of news information.More reliance on HTML tags,its difficult to extend to different sources.Therefore,this paper proposed an information extraction method of news Web pages based on multidimensional text features.It divided writing,semantic and location features into writing features by using the writing features of news texts.And it used multi-channel convolutional neural network to fuse multi-dimensional text features to extract multiple types of news Web pages.Only a small amount of data set training was required to extract news Web page information from new sources.Experimental results show that the performance of this method is better than the current optimal method.
关 键 词:网页信息提取 卷积神经网络 WEB挖掘 文本特征
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.141.38.11