检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:艾金勇[1]
机构地区:[1]西藏民族大学图书馆
出 处:《图书馆学研究》2017年第3期59-64,77,共7页Research on Library Science
基 金:西藏自治区高校青年教师创新支持计划项目"基于藏文Web文本的关联知识挖掘方法研究"(No:QCZ2016-44);西藏自治区自然科学基金项目"基于语义的藏文百科知识问答系统关键技术的研究"(No:2016ZR-MY-04)的阶段性成果
摘 要:文章归纳整理了藏文网页的结构特征,在借鉴中英文关键词抽取方法的基础上,设计实现了融合语义知识的藏文网页关键词抽取算法。该算法利用藏文文本特征实现了网页内容模块的智能识别,在对识别的文本块进行自动分词后,采用改进的TF-IDF算法得到基础词集,然后根据词向量特征进行基础词的语义扩展构建候选关键词集,最后利用候选关键词之间的语义相关度值,确立藏文网页的关键词。藏文网页的实验测试结果表明该方法提取的藏文网页关键词具有较高的准确率。This paper summarizes the structural features of Tibetan Web pages. Based on the Chinese and English keyword extraction methods, the paper designs and implements the key words extraction algorithm for Tibetan Web pages with integrated semantic knowledge. The algorithm uses the Tibetan text feature to realize the intelligent recognition of the Web content module. After the automatic segmentation of the recognized text blocks has been realized, the improved TF-IDF method is used to get the basic word set. Then, the semantic extension of the basic words is used to construct the candidate keyword sets. Finally, the key words of the Tibetan Web pages are established by using the semantic relevance values among the candidate keywords. Experimental results show that the method can extract the Tibetan Web pages with high accuracy.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP393.092[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.191.190.40