基于单类别文档分类的主题爬虫  被引量:3

Focused crawler based on one-class document classification

在线阅读下载全文

作  者:方加沛[1] 黄战[1] 

机构地区:[1]暨南大学计算机科学系

出  处:《计算机工程与应用》2010年第16期63-66,共4页Computer Engineering and Applications

基  金:国家自然科学基金(No.60773083)~~

摘  要:主题爬虫设计中关于主题的确立可以采用手工设置关键词集的方法也可以采用构造分类器的方法。前者易于实现,但是依赖于专家的经验,具有关键词缺漏和权值量化不精确的缺点;而后者的主要缺点在于难以获取具有代表性的反例训练样本。针对上述情况,提出了一种基于单类别文档分类的主题爬虫,同时还将分类作用于超链接的anchor text。实验结果充分证明了该主题爬虫的可行性。There are two methods that can be used to determine the interesting topic in designing a focused crawler:setting

关 键 词:搜索引擎 主题爬虫 单类别文档分类 信息提取 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象