一种基于网页源文件的信息提取算法  被引量:1

An Algorithm of Drawing Website Information Based on Webpage File Code

在线阅读下载全文

作  者:赵晓峰[1] 凌天斌[1] 彭波[1] 王转妮[1] 

机构地区:[1]解放军外国语学院教育技术中心,河南洛阳471003

出  处:《计算机与现代化》2012年第2期38-39,43,共3页Computer and Modernization

摘  要:通过对网页源文件的代码进行分析、设计信息提取的算法,目的是替代人工进行网站相关信息的获取,避免重复性劳动。首先对现有的两种Web结构进行比较分析,然后针对每一种Web结构提出信息提取的方案,接下来以日本著名新闻网站NHK为例,对上述方案进行验证和代码实现,最后对系统的功能扩充进行更高层次的展望。This paper designs an algorithm of drawing information through the analysis of webpage file code.The purpose of this paper is to obtain the website information automatically.First,it analyzes and ampares two kinds of website structure,then proposes the algorithm of drawing information on the two website structure,following this,realizes the algorithm with code taking the NHK website as an example,at the end,expects the information drawing system's future on function expansion.

关 键 词:WEB结构 信息提取 网页标记 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象