一种基于多叉树的HTML到XML的转换方法  

A Multi-tree Based HTML to XML Transformation Approach

在线阅读下载全文

作  者:张文斌[1] 陈恩红[1] 王进[1] 

机构地区:[1]中国科学技术大学计算机科学系,合肥230027

出  处:《小型微型计算机系统》2003年第9期1617-1620,共4页Journal of Chinese Computer Systems

基  金:国家自然科学基金资助项目 (60 0 0 5 0 0 4);安徽省自然科学基金资助 (0 10 42 3 0 2 )项目

摘  要:当前的 Web信息大多数都是 HTML格式的 ,由于 HTML文件中没有严格的结构性 ,故很难能用一种有效的方法来检索或提取隐藏其中的数据 .针对 HTML的这种缺陷 ,本文提出了基于多叉树的 HTML到 XML转换方法 ,把对 HTML 的信息检索问题转化为对 XML 的检索问题 。Large volume of current Web information is in HTML format. However HTML file has no strict structures, therefore it is difficult to retrieve or extract its hidden data. To overcome the shortcoming, the paper proposes a multi-tree based HTML to XML transformation approach so that HTML information retrieval problem is transformed into XML information retrieval problem, thus simplifying information retrieval task.

关 键 词:HTML XML 多叉树 信息检索 

分 类 号:TP312[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象