面向搜索引擎查询日志的领域术语自动识别方法  被引量:2

Identifying Terminology from Search Engine Query Logs

在线阅读下载全文

作  者:刘彤[1] 倪维健[1] 柳梅[1] 

机构地区:[1]山东科技大学信息科学与工程学院,青岛266590

出  处:《现代图书情报技术》2016年第2期25-33,共9页New Technology of Library and Information Service

基  金:山东省自然科学基金"动态环境下结构支持向量机学习算法及其应用研究"(项目编号:ZR2014FP011);山东省高等学校科技计划项目"面向信息检索的非平衡数据排序学习问题研究"(项目编号:J12LN45)和山东省高等学校科技计划项目"面向非规范分布形态下不平衡文本数据的监督学习关键技术研究"(项目编号:J14LN33)的研究成果之一

摘  要:【目的】为弥补传统基于静态领域语料的领域术语识别方法的不足,提出一种从搜索引擎查询日志中自动识别领域术语的新方法。【方法】使用四部图对查询日志进行抽象描述,并在其上应用流形排序算法得到所有候选术语关于领域度的排序,取排在前列的术语作为领域术语。【结果】在真实搜索引擎的查询日志上实验证实本文方法具有更好的领域术语识别效果,在Precision@n指标上比基准方法提升约20%。【局限】识别到的领域术语的覆盖面部分依赖于领域专家选取的初始查询词,这对领域专家的经验提出一定要求。【结论】该方法无需事先准备大规模领域语料以及大量的人工标注,即可构建高质量的领域术语集合,具有较高的实用价值。[Objective] This study proposes a new approach to identify terminologies from search engine query logs for the purpose of improving traditional technology. [Methods] First, used the four-partite graph to re-present those query logs. Then, ranked the candidate terminologies with the help of manifold ranking algorithm. Those top ranked ones were domain-specified. [Results] We tested the proposed method with real search engine query logs and found the precision rates were about 20% higher than the standard approach. [Limitations] The coverage of those identified terminologies relies on the initial domain-specified queries manually chosen by the experts. [Conclusions] The proposed approach could build high quality domain thesaurus without pre-defined large domain corpus and annotations. Thus, the new method was more practical for real world issues.

关 键 词:领域术语 搜索引擎 查询日志 流形排序 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象