基于机器学习的网页正文提取方法被引量：7

An approach based on machine learning for information extraction method

机构地区：[1]中国石油大学(华东)计算机与通信工程学院计算机科学与技术系,山东东营257000

出　　处：《微型机与应用》2010年第12期4-6,共3页Microcomputer & Its Applications

摘　　要：先将网页转换为规范的DOM树,然后计算每行文本的文本密度、与标题相关度等值,并将其作为输入参数利用BP神经网络进行训练,进而形成抽取规则,最后通过实验验证该方法的可行性。We firstly translate the HTML to a DOM tree, and then compute the text density, the correlation between the words and the title of each line, and train with them by BP neural network, then we get the extract rules. At last we test the feasibility of this method.

关键词：信息提取神经网络统计学习

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于机器学习的网页正文提取方法被引量：7

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于机器学习的网页正文提取方法 被引量：7

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于机器学习的网页正文提取方法被引量：7