基于同义词词林和预训练词向量的微调方法  被引量:1

A Fine-tuning Method Based on Tongyi Cilin and Pre-trained Word Embedding

在线阅读下载全文

作  者:佘琪星 王必聪 刘铭[1,2] 秦兵 王莉峰[3] SHE Qixing;WANG Bicong;LIU Ming;QIN Bing;WANG Lifeng(Research Center for Social Computing and Information Retrieval,Harbin Institute of Technology,Harbin,Heilongjiang 150001,China;Peng Cheng Laboratory,Shenzhen,Guangdong 518055,China;Tencent Technology(Shenzhen)Co.,Ltd,Shenzhen,Guangdong 518000,China)

机构地区:[1]哈尔滨工业大学,社会计算与信息检索研究中心,黑龙江哈尔滨150001 [2]鹏程实验室,广东深圳518055 [3]腾讯科技(深圳)有限公司,广东深圳518000

出  处:《中文信息学报》2020年第10期27-32,共6页Journal of Chinese Information Processing

基  金:国家自然科学基金(61772156,61976073);黑龙江省自然科学基金(F2018013)。

摘  要:同义词挖掘是自然语言处理领域中的一个基础任务,而同义词对的判别是该任务的一个重要部分。传统两大类方法,基于分布式表示和基于模板的方法,分别利用了语料的全局统计信息和局部统计信息,只能在精确率和召回率中权衡。随着预训练词向量技术的发展,基于分布式表示的方法存在一种简单高效的方案,即直接对预训练好的词向量计算相似度,将此表示为语义相似度。然而,这样的思路并没有利用到现有的同义词对这一外部知识。该文提出基于《同义词词林》的词向量微调方法,利用同义词对信息,增强预训练词向量的语义表示。经过实验,该微调方法能很好地完成同义词对的判别。Synonym discovery is a typical task in natural language processing,aiming at predicting whether a given word is a synonym of another word.With pre-trained word embedding appeared recently,a simple and effective distributional based approach is available by exploiting the similarity between word embeddings.To further augmenting external knowledge such as synonym tuples,this paper proposes a word embedding fine-tuning approach based on synonym tuples in Tongyi Cilin,so as to enhance the semantic representation of embedding.Our experiments show this approach is effective for predicting synonyms.

关 键 词:同义词挖掘 预训练词向量 语义表示 微调 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象