检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]晋中学院信息技术与工程学院,山西晋中030619
出 处:《计算机应用》2014年第10期2865-2868,2873,共5页journal of Computer Applications
基 金:山西省高等学校教学改革项目(J2013098);山西省教育科学"十一五"规划课题(GH-08072)
摘 要:针对突发事件新闻网页语料处理问题,提出了一种基于此类新闻特点与网页标记信息的抽取和定位新闻内容的方法。该方法将网页标记与文本相似度作为机器学习的特征项,利用贝叶斯分类方法提取新闻标题。利用事件新闻的用词稳定性与网页标记的嵌套特点,减少了文本处理数量,降低了文本向量维数,在此基础上计算向量相似度以定位新闻篇首与篇尾。实验结果表明,该方法抽取标题的准确率达到86.5%,抽取正文的平均准确率在78%以上,能有效抽取新闻内容,且易于实现,对其他网页文本处理中挖掘标记信息与文本自身信息具有一定的借鉴意义。Concerning the processing of emergency news webpages corpora, an news content extracting and locating method based on the characteristics of emergency news and webpage tags was proposed. By taking webpage tags and text similarity as the features of machine learning, this method extracted the news headlines based on the Bayes method. Meanwhile, the method reduced text processing quantity and dimensionality of text vector based on the stability of emergency news' words and nesting of webpage tags, so that it calculated similarity of vector to locate the news beginning and ending. The experimental results show that this method extracts news headlines with an 86.5% accuracy rate and extracts news texts with an average accuracy rate of more than 78%. The proposed method is effective and efficient. It has certain reference for mining webpage tags and own information of text on webpages.
关 键 词:朴素贝叶斯模型 向量空间模型 突发事件新闻 网页标记 内容提取
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.185