检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西南大学计算机与信息科学学院,重庆400715
出 处:《计算机工程与设计》2014年第5期1833-1839,共7页Computer Engineering and Design
基 金:中央高校基本科研业务费专项基金项目(XDJK2013C005)
摘 要:为了提高网页正文提取的实用性和准确性,在已有的网页正文提取算法基础上,提出了一种网页图片选择算法,并将两者集成为一种新的网页图文摘要方法。构建了网页图文摘要的方法模型,设计出图片选择算法,该算法使用本体建模语言(ontology web language,OWL)进行页面本体的构建,提取图片和网页各种元素的语义特性,并考虑图片的各类align属性,从而能在网页中选取较优的具有代表性图片。实验结果表明,该方法能够有效地丰富和完善网页正文提取。To improve the accuracy extraction of webpage main text, graphical abstract algorithm is proposed to combined with the exist extraction of webpage main text to form a new graphical-text abstract algorithm, the graphical-text abstract algorithm modle and the graphical abstract algorithm are given. Based on the established OWL ontology, the aligh propery of graphic is taken a full account, and combining with the semantic property of graphic and variety of webpage elements, an optimization algorithm is used to optimize these impact factors to extract the most representative graphic with exist extraction of webpage main text. The experiment shows that this new graphical-text abstract algorithm based on building OWL ontology can effectively en riched and perfected the exist extraction of webpage main text.
关 键 词:图文摘要 本体建模语言 语义特性 图片选择 页面本体
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.43