面向网络评论的文本信息抽取方法研究  被引量:1

Research on the Method of Network Review Extraction

在线阅读下载全文

作  者:段建勇[1] 高会娟[1] 张梅[1] 

机构地区:[1]北方工业大学信息工程学院,北京100144

出  处:《北方工业大学学报》2015年第1期7-12,50,共7页Journal of North China University of Technology

基  金:国家自然科学基金(61103112);北京市哲学社会科学规划基金(13SHC031);北京市青年拔尖人才培育计划(CIT&TCD201404005)

摘  要:为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性.In order to efficiently analyze and extract online reviews,this paper proposed a parsing algorithm of text extraction based on HtmlParser.First,we realized the algorithm through the language and format rules to filter tags.Secondly,we used the Regex model for text cleaning and denoising.Finally,we verified the validity of the algorithm by the experiment of combining the accuracy and the recall rate.

关 键 词:网页提取 信息抽取 URL采集 模式匹配 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象