突发事件新闻标题与正文提取方法  被引量:10

Extracting method of emergency news headline and text from webpages

在线阅读下载全文

作  者:罗永莲[1] 赵昌垣 

机构地区:[1]晋中学院信息技术与工程学院,山西晋中030619

出  处:《计算机应用》2014年第10期2865-2868,2873,共5页journal of Computer Applications

基  金:山西省高等学校教学改革项目(J2013098);山西省教育科学"十一五"规划课题(GH-08072)

摘  要:针对突发事件新闻网页语料处理问题,提出了一种基于此类新闻特点与网页标记信息的抽取和定位新闻内容的方法。该方法将网页标记与文本相似度作为机器学习的特征项,利用贝叶斯分类方法提取新闻标题。利用事件新闻的用词稳定性与网页标记的嵌套特点,减少了文本处理数量,降低了文本向量维数,在此基础上计算向量相似度以定位新闻篇首与篇尾。实验结果表明,该方法抽取标题的准确率达到86.5%,抽取正文的平均准确率在78%以上,能有效抽取新闻内容,且易于实现,对其他网页文本处理中挖掘标记信息与文本自身信息具有一定的借鉴意义。Concerning the processing of emergency news webpages corpora, an news content extracting and locating method based on the characteristics of emergency news and webpage tags was proposed. By taking webpage tags and text similarity as the features of machine learning, this method extracted the news headlines based on the Bayes method. Meanwhile, the method reduced text processing quantity and dimensionality of text vector based on the stability of emergency news' words and nesting of webpage tags, so that it calculated similarity of vector to locate the news beginning and ending. The experimental results show that this method extracts news headlines with an 86.5% accuracy rate and extracts news texts with an average accuracy rate of more than 78%. The proposed method is effective and efficient. It has certain reference for mining webpage tags and own information of text on webpages.

关 键 词:朴素贝叶斯模型 向量空间模型 突发事件新闻 网页标记 内容提取 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象