检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《北方工业大学学报》2015年第1期7-12,50,共7页Journal of North China University of Technology
基 金:国家自然科学基金(61103112);北京市哲学社会科学规划基金(13SHC031);北京市青年拔尖人才培育计划(CIT&TCD201404005)
摘 要:为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性.In order to efficiently analyze and extract online reviews,this paper proposed a parsing algorithm of text extraction based on HtmlParser.First,we realized the algorithm through the language and format rules to filter tags.Secondly,we used the Regex model for text cleaning and denoising.Finally,we verified the validity of the algorithm by the experiment of combining the accuracy and the recall rate.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.21