Deep Web入口探测与分类方法研究  被引量:2

Research on detecting and classifying Deep Web interfaces

在线阅读下载全文

作  者:张亮[1] 陆余良[1] 刘金红[1] 

机构地区:[1]解放军电子工程学院网络系,合肥230037

出  处:《计算机应用研究》2009年第12期4697-4700,4703,共5页Application Research of Computers

摘  要:传统的使用语料库对入口标签字符串进行匹配的方法受限于语料库的完整性和匹配算法的灵活性。为突破这种局限,引入了基于表单元件统计特征的Deep Web入口探测方法和使用文本分类方法对其进行分类的双层分类模型,并提出了两种特征权重计算方法用于特征选取。在TEL-8 Query Interfaces数据集上,测试结果体现了双层分类模型的优越性和特征向量维归约的必要性。Traditional method using library to match those labels is limited to the integrity of the library and the scalability of the matching algorithm. In order to break through this limitation, this paper introduced a bilateral-layer model based on the statistic characteristics of the interfaces to detect Deep Web entries and text classification approach to classify them. Meanwhile, it provided and applied two methods of computing feature-weight to feature selection. The test results got from TEL-8 Query Interfaces showed the superiority of bilateral-layer classification model and the necessity of dimensionality reduction.

关 键 词:DEEPWEB 网络爬虫 结构特征 维归约 双层分类模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象