基于标记树表示方法的页面结构分析  被引量:24

Web Page Structure Analysis Based on Tag Tree Method

在线阅读下载全文

作  者:常育红 姜哲[2] 朱小燕[2] 

机构地区:[1]北京九州公司,北京100081 [2]清华大学计算机科学与技术系

出  处:《计算机工程与应用》2004年第16期129-132,共4页Computer Engineering and Applications

摘  要:页面内容结构分析在WEB信息检索、分类和抽取等方面有重要作用。文章从页面布局和内容之间关系出发,根据WEB文件中标记之间关系,用标记树表示页面文件,采用自底向上的算法,抽取出具有不同语义的页面内容,提出用树形层次结构表示它们之间关系的方法。在此基础上,通过模仿人们浏览页面的习惯,成功地将其应用于页面的计算机屏读系统,实现自动朗读页面主题的功能。WEB page content structure is very helpful for applications such as information retrieval,classification,information extraction etc.This paper analyzes the structure of WEB page according to the relation between layout and content.This paper uses tag tree to denote the WEB content and presents a down-top approach to extract the different semantic contents of page,and brings forward a tree structure to present the relation of them.At last it applies it successfully in screen reader for reading WEB pages according to simulating the habit of person browsing WEB page.

关 键 词:WEB页面布局 页面结构 信息抽取 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象