基于DOM的中文人物WEB信息提取  被引量:2

Extract Information of Chinese characters from Web Pages Based on DOM Tree

在线阅读下载全文

作  者:陈晓云[1] 宋伟国[1] 苗胜法[1] 

机构地区:[1]兰州大学,730000

出  处:《微计算机信息》2010年第36期15-17,共3页Control & Automation

摘  要:本文面向中文人物WEB信息提取这个主题,将HTML文档解析成DOM树,扩展DOM树,增加主题相关度影响因子。提出特征权值计算方法计算主题相关度,并根据主题相关性因子进行剪枝,提取主题信息。进而通过句法分析、模式匹配提取中文人物的姓名、出生年月、性别等信息。结果表明,该方法有较好的查全率和准确率。In the topic of information extraction for Chinese characters from Web Pages,parse HTML document into a DOM tree,expand DOM tree,add influence degree to the topic. Use Feature Weight method to calculate the influence degree of the topic,on the basis of the influence degree of the topic to prune the DOM tree.By sentence demarcation and syntactic parsing,extract information of the Chinese character name,date of birth,gender,etc. The results show that the method has a better recall rate and accuracy rate.

关 键 词:信息提取 文档对象模型 影响因子 中文人物 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象