基于统计和机器学习的中文Web网页正文内容抽取被引量：5

Extraction of Topical Information from Chinese Web Pages Based on the Statistic and Machine Learning

机构地区：[1]福建商业高等专科学校,福建福州350012 [2]清华大学,北京100084

出　　处：《福建商业高等专科学校学报》2009年第2期68-72,共5页Journal of Fujian Commercial College

摘　　要：在搜索引擎中为了减小索引文件的大小、加快检索的速度和提高检索的精确度,必须对网页中的文本内容去噪并有效地抽取网页中的主题信息。根据对大量网页的特征分析,本文提出了一种较为简单和实用的网页主题信息抽取方法,该方法利用主题信息在网页中分布相对集中和文本密度较高的特征,利用BP人工神经网络进行自动识别,实验结果表明,该方法对于信息发布类网站平均准确率较高,具有一定的实用性。In the searching engine system,it is necessary to de-noise content and extract topic information from web pages efficiently in order to reduce the size of index files,improve the retrieval speed and accuracy.Based on the characteristics analysis of large amount of web pages,this paper puts forward a simple and practical information extraction approach,using the characteristics of comparatively concentrative topic information and the high text density in web pages.This approach uses BP artificial neural network to automatically identify the topic information.The experimental results show that the average extraction accuracy is high and practical as to the information-publishing website.

关键词：信息抽取 BP人工神经网络搜索引擎

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于统计和机器学习的中文Web网页正文内容抽取被引量：5

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于统计和机器学习的中文Web网页正文内容抽取 被引量：5

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于统计和机器学习的中文Web网页正文内容抽取被引量：5