检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]福建商业高等专科学校,福建福州350012 [2]清华大学,北京100084
出 处:《福建商业高等专科学校学报》2009年第2期68-72,共5页Journal of Fujian Commercial College
摘 要:在搜索引擎中为了减小索引文件的大小、加快检索的速度和提高检索的精确度,必须对网页中的文本内容去噪并有效地抽取网页中的主题信息。根据对大量网页的特征分析,本文提出了一种较为简单和实用的网页主题信息抽取方法,该方法利用主题信息在网页中分布相对集中和文本密度较高的特征,利用BP人工神经网络进行自动识别,实验结果表明,该方法对于信息发布类网站平均准确率较高,具有一定的实用性。In the searching engine system,it is necessary to de-noise content and extract topic information from web pages efficiently in order to reduce the size of index files,improve the retrieval speed and accuracy.Based on the characteristics analysis of large amount of web pages,this paper puts forward a simple and practical information extraction approach,using the characteristics of comparatively concentrative topic information and the high text density in web pages.This approach uses BP artificial neural network to automatically identify the topic information.The experimental results show that the average extraction accuracy is high and practical as to the information-publishing website.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30