一种从网页中抽取评论内容的方法和装置  

在线阅读下载全文

出  处:《电脑与电信》2014年第4期23-23,共1页Computer & Telecommunication

摘  要:成果描述:本发明公开了一种从网页中抽取评论内容的方法和装置,涉及信息处理技术,通过建立评论页面的DOM树,并选择符合评论区抽取规则的子树抽取出评论内容,再利用评论记录间的结构相似性,抽取出评论区中的评论记录,利用包含评论内容的子树的差异性,选择标准差最大的子树作为包含评论内容的子树,最后选取稳定性最小的一条路径,稳定性差绝对值最大的相邻节点中的子节点作为根节点,这个子树就是要抽取的评论内容。

关 键 词:抽取规则 评论 装置 网页 信息处理技术 相邻节点 结构相似性 DOM树 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象