检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京九州公司,北京100081 [2]清华大学计算机科学与技术系
出 处:《计算机工程与应用》2004年第16期129-132,共4页Computer Engineering and Applications
摘 要:页面内容结构分析在WEB信息检索、分类和抽取等方面有重要作用。文章从页面布局和内容之间关系出发,根据WEB文件中标记之间关系,用标记树表示页面文件,采用自底向上的算法,抽取出具有不同语义的页面内容,提出用树形层次结构表示它们之间关系的方法。在此基础上,通过模仿人们浏览页面的习惯,成功地将其应用于页面的计算机屏读系统,实现自动朗读页面主题的功能。WEB page content structure is very helpful for applications such as information retrieval,classification,information extraction etc.This paper analyzes the structure of WEB page according to the relation between layout and content.This paper uses tag tree to denote the WEB content and presents a down-top approach to extract the different semantic contents of page,and brings forward a tree structure to present the relation of them.At last it applies it successfully in screen reader for reading WEB pages according to simulating the habit of person browsing WEB page.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7