基于机器学习的网页正文提取方法  被引量:7

An approach based on machine learning for information extraction method

在线阅读下载全文

作  者:安增文[1] 王超[1] 徐杰锋[1] 

机构地区:[1]中国石油大学(华东)计算机与通信工程学院计算机科学与技术系,山东东营257000

出  处:《微型机与应用》2010年第12期4-6,共3页Microcomputer & Its Applications

摘  要:先将网页转换为规范的DOM树,然后计算每行文本的文本密度、与标题相关度等值,并将其作为输入参数利用BP神经网络进行训练,进而形成抽取规则,最后通过实验验证该方法的可行性。We firstly translate the HTML to a DOM tree, and then compute the text density, the correlation between the words and the title of each line, and train with them by BP neural network, then we get the extract rules. At last we test the feasibility of this method.

关 键 词:信息提取 神经网络 统计学习 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象