NEMTF:基于多维度文本特征的新闻网页信息提取方法  

NEMTF:method of news Web content extraction based on multi-dimensional text features

在线阅读下载全文

作  者:翁彬月 秦永彬[1,2] 黄瑞章 任丽娜[1,2,3] 田悦霖 Weng Binyue;Qin Yongbin;Huang Ruizhang;Ren Lina;Tian Yuelin(College of Computer Science&Technology,Guizhou University,Guiyang 550025,China;Guizhou Provincial Key Laboratory of Public Big Data,Guiyang 550025,China;Guizhou Light Industry Technical College,Guiyang 550025,China)

机构地区:[1]贵州大学计算机科学与技术学院,贵阳550025 [2]贵州省公共大数据重点实验室,贵阳550025 [3]贵州轻工职业技术学院,贵阳550025

出  处:《计算机应用研究》2022年第4期1043-1048,共6页Application Research of Computers

基  金:国家自然科学基金通用联合基金重点资助项目(U1836205);国家自然科学基金重大研究计划资助项目(91746116);国家自然科学基金资助项目(62066007,62066008);贵州省科技重大专项计划资助项目(黔科合重大专项字[2017]3002);贵州省科学技术基金重点资助项目(黔科合基础[2020]1Z055)。

摘  要:目前主流的网页抽取方法存在两大问题:提取信息类型单一,难以获取多种类新闻信息;多依赖HTML标签,难以扩展至不同来源。为此提出一种基于多维度文本特征的新闻网页信息提取方法,利用新闻文本的写作特点划分出写作、语义和位置特征,通过多通道卷积神经网络融合为多维度文本特征,用于提取多种类新闻网页信息;仅需少量数据集训练,就可提取新来源的新闻网页信息。实验结果表明,该方法在性能上高于当前最优方法。At present,there are two major problems in the mainstream webpage extraction methods:the extraction information type is single,and it is difficult to obtain multiple kinds of news information.More reliance on HTML tags,its difficult to extend to different sources.Therefore,this paper proposed an information extraction method of news Web pages based on multidimensional text features.It divided writing,semantic and location features into writing features by using the writing features of news texts.And it used multi-channel convolutional neural network to fuse multi-dimensional text features to extract multiple types of news Web pages.Only a small amount of data set training was required to extract news Web page information from new sources.Experimental results show that the performance of this method is better than the current optimal method.

关 键 词:网页信息提取 卷积神经网络 WEB挖掘 文本特征 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象