基于文本内容的农业网页信息抽取和分类研究  被引量:3

Text Oriented Information Extraction and Classification Technology for Agricultural Webs

在线阅读下载全文

作  者:朱学芳[1,2] 冯曦曦[1,2] 

机构地区:[1]南京大学信息管理系,江苏南京210093 [2]南京大学多媒体信息研究所,江苏南京210093

出  处:《情报科学》2012年第7期1012-1015,共4页Information Science

基  金:2008年国家社科基金重点项目(08ATQ003)

摘  要:通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。Through the investigation and analysis of their structures and features of HTML in the agricultural websites, the paper described the methods of the information extraction and classification for agricultural webs. The main contents included: information extraction and classification for agricultural webs based on document object model (DOM) structure; automatic calculation of text classification attribute according to its contents; obtaining feature words; and automatic classification of new documents through the summary of sample document features and The experimental results showed that the time consumption of web information extraction was lower while its exactness kept higher, with satisfactory classification rates.

关 键 词:文本 农业网页 信息抽取 分类 

分 类 号:G350[文化科学—情报学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象