基于网页结构挖掘的信息提取  被引量:2

Extracting Information by Mining Structures of Web Pages

在线阅读下载全文

作  者:李媛[1] 耿桦[1] 张甍[1] 潘金贵[1] 

机构地区:[1]南京大学计算机软件新技术国家重点实验室,南京210093

出  处:《计算机科学》2006年第3期191-193,218,共4页Computer Science

摘  要:本文提出了两种细粒度的、基于网页结构挖掘的信息提取方法,比较了它们的优缺点,并给出了相应具体实现的性能测试和结果分析。To simplify the task of obtaining information from the vast number of information sources that are available on the WWW, we have developed two different methods to extract information of fine grain. This paper firstly describes the principles of the two methods, which work by mining structures of Web pages, and then compares the advantages and disadvantages of them. Finally, we test the performance of the two methods and analyze the experiment results.

关 键 词:信息提取 网页结构挖掘 重复模式 时间特征 RSS 

分 类 号:TP391.41[自动化与计算机技术—计算机应用技术] TP311.5[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象