基于用户查询日志的命名实体挖掘  被引量:8

Mining Named Entities from Query Logs

在线阅读下载全文

作  者:翟海军[1] 郭嘉丰[2] 王小磊[2] 许洪波[2] 

机构地区:[1]中国科学技术大学计算机学院,安徽合肥230027 [2]中国科学院计算技术研究所,北京100190

出  处:《中文信息学报》2010年第1期71-76,116,共7页Journal of Chinese Information Processing

摘  要:针对大规模查询日志中丰富的命名实体的挖掘是数据挖掘领域中的重要研究课题。已有的研究工作提出了一种基于种子实体的抽取框架,利用实体间的分布相似度进行挖掘。然而该工作只有当种子实体仅属于单个语义类别时才能取得好的结果,实际上命名实体往往可能从属于多个类别。该文通过引入一个弱指导话题模型,利用少量的人工指导信息,很好地解决了实体的类别模糊性,提高了挖掘的有效性。实验表明该文提出的方法在实体挖掘性能上显著优于已有的方法。Mining named entities from query logs is an important research field in data mining. Previous work proposed a seed--based framework to mine named entities from query logs by leveraging distribution similarity, which works well only when each named entity only belongs to a signle semantic class. In fact, named entities may often belong to multiple classes. In this paper, we introduce a weakly-supervised topic model to resolve class ambiguity of named entities by leveraging weak supervision from human. The experiment results show that our approach significantly outperforms the previous method.

关 键 词:计算机应用 中文信息处理 分开命名实体 用户查询日志 话题模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象