含有语义特征的网页新闻自动抽取  被引量:5

Automatic Web News Extraction with Semantic Features

在线阅读下载全文

作  者:施洋[1] 张奇[1] 黄萱菁[1] 

机构地区:[1]复旦大学计算机科学技术学院,上海200433

出  处:《计算机工程》2010年第7期173-175,178,共4页Computer Engineering

基  金:国家自然科学基金面上资助项目(60673038);教育部高等学校博士学科点专项科研基金资助项目(200802460066);上海市科委重点科技攻关基金资助项目(08511500302)

摘  要:通过分析新闻网页的语义特征以及网页之间存在的通用性质,提出一种含有语义特征的网页新闻自动抽取方法,包括利用语义分类器识别新闻网页中的种子信息以及页面中的局部信息来完成抽取。在分类器中加入语义特征可以使F1值达到94.2%。在语义分类器与局部特征结合的情况下,F1值可以达到96.9%。实验结果证明,该方法能有效提高网页信息抽取算法的精度,降低机器学习所需要的标注成本。This paper analyzes the semantic features and the similarity of Web news pages, and presents an automatic Web news extraction method with semantic features. It utilizes semantic classifier to find the seed information, and uses portion features to build information extraction rules. The F 1-Value of Web news extraction can reach to 94.2% when add semantic features to classifier. The performance of F 1-Value can reach to 96.9% when combine semantic classifier and portion features based information extraction method. Experimental result shows that the method can effectively improve the accuracy of Web information extraction method and cut the cost of manual labeling work.

关 键 词:网络信息抽取 语义特征 局部特征 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象