融合语义知识的藏文网页关键词提取方法研究  被引量:4

A Research on the Keyword Extraction Method of Tibetan Web Pages Based on Fusion Semantic Knowledge

在线阅读下载全文

作  者:艾金勇[1] 

机构地区:[1]西藏民族大学图书馆

出  处:《图书馆学研究》2017年第3期59-64,77,共7页Research on Library Science

基  金:西藏自治区高校青年教师创新支持计划项目"基于藏文Web文本的关联知识挖掘方法研究"(No:QCZ2016-44);西藏自治区自然科学基金项目"基于语义的藏文百科知识问答系统关键技术的研究"(No:2016ZR-MY-04)的阶段性成果

摘  要:文章归纳整理了藏文网页的结构特征,在借鉴中英文关键词抽取方法的基础上,设计实现了融合语义知识的藏文网页关键词抽取算法。该算法利用藏文文本特征实现了网页内容模块的智能识别,在对识别的文本块进行自动分词后,采用改进的TF-IDF算法得到基础词集,然后根据词向量特征进行基础词的语义扩展构建候选关键词集,最后利用候选关键词之间的语义相关度值,确立藏文网页的关键词。藏文网页的实验测试结果表明该方法提取的藏文网页关键词具有较高的准确率。This paper summarizes the structural features of Tibetan Web pages. Based on the Chinese and English keyword extraction methods, the paper designs and implements the key words extraction algorithm for Tibetan Web pages with integrated semantic knowledge. The algorithm uses the Tibetan text feature to realize the intelligent recognition of the Web content module. After the automatic segmentation of the recognized text blocks has been realized, the improved TF-IDF method is used to get the basic word set. Then, the semantic extension of the basic words is used to construct the candidate keyword sets. Finally, the key words of the Tibetan Web pages are established by using the semantic relevance values among the candidate keywords. Experimental results show that the method can extract the Tibetan Web pages with high accuracy.

关 键 词:藏文网页 TF-IDF 语义扩展 关键词抽取 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP393.092[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象