一种基于多叉树的HTML到XML的转换方法  被引量:4

A Multi-tree Based HTML to XML Transformation Approach

在线阅读下载全文

作  者:张文斌[1] 陈恩红[1] 王进[1] 

机构地区:[1]中国科学技术大学计算机科学系,安徽合肥230027

出  处:《小型微型计算机系统》2003年第4期713-715,共3页Journal of Chinese Computer Systems

基  金:国家自然科学基金(60005004)资助;安徽省自然科学基金(01042302)资助

摘  要:当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的 方法来检索或提取隐藏其中的数据.针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把 对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题.Large volume of current Web information is in HTML format. However HTML file has no strict structures, therefore it is difficult to retrieve or extract its hidden data. To overcome the shortcoming, the paper proposes a multi-tree based HTML to XML transformation approach so that HTML information retrieval problem is transformed into XML information retrieval problem, thus simplifying information retrieval task.

关 键 词:多叉树 HTML语言 XML语言 信息检索 Web Internet 

分 类 号:TP312[自动化与计算机技术—计算机软件与理论] G354.4[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象