领域本体的藏文主题爬虫搜索策略研究  被引量:1

STUDY ON DOMAIN ONTOLOGY-BASED TIBETAN TOPICS CRAWLER SEARCH STRATEGY

在线阅读下载全文

作  者:高红梅[1] 仁青诺布[1] 普次仁[1] 

机构地区:[1]西藏大学工学院,西藏拉萨850000

出  处:《计算机应用与软件》2015年第9期68-71,共4页Computer Applications and Software

基  金:国家自然科学基金重点项目(61331013);国家自然科学基金项目(61165013);西藏大学青年培育基金项目(ZDPJZK201302)

摘  要:针对目前没有通用藏文搜索引擎的情况,提出一种基于领域本体的面向主题的藏文信息爬取策略。策略首先根据藏文和藏文编码的特点,判断出藏文Web并进行映射转换。然后通过构建领域本体,进行概念相似性计算,得到领域主题相关性网页。实验结果表明,该方法能够自动发现领域内的主题相关资源,并且比基于关键词的藏文网页信息搜索能得到更好的查全率和查准率,可以作为藏文Web语义搜索研究的参考。Aiming at the situation that there is no general Tibetan research engine at present, the thesis puts forward a domain ontology- based topic-oriented Tibetan information search strategy. The strategy first judges the Tibetan Web and carries out mapping transform according to the features of Tibetan and Tibetan coding. Then through constructing domain ontology it calculates the concept similarity, and Obtains the correlation webpages of domain topics. Experimental results indicate that the method can automatically find the topic-related resources in the domain, and can get better recall rate and precision rate than the keywords-based Tibetan webpages information search. Therefore, it can be used as the reference for the study of Tibetan Web semantics search.

关 键 词:本体 相似度计算 藏文网页 主题发现 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象