汉语语义构词的资源建设与计算评估  

Construction of Chinese Semantic Word-formation and its Computing Applications

在线阅读下载全文

作  者:王悦[1,2] 刘扬 梁启亮[1,3] 王涵思 WANG Yue;LIU Yang;LIANG Qiliang;WANG Hansi

机构地区:[1]北京大学计算语言学教育部重点实验室,北京100871 [2]北京大学计算机学院,北京100871 [3]北京大学信息科学技术学院,北京100871

出  处:《语言文字应用》2023年第4期105-117,共13页Applied Linguistics

基  金:国家自然基金项目“语言理解的认知机理与计算模型研究”(62036001);国家社科基金项目“基于‘互联网+’的国际汉语教学资源与智慧教育平台研究”(18ZDA295)的支持。

摘  要:汉语是一种意合型语言,汉语语素的构词方式及其规律是描述、理解词义的重要因素。关于语素构词的方式,语言学界有语法构词与语义构词这两种观点,其中,语义构词对语素间关系的表达更为深入。本文基于语言学视角,结合汉语构词特点,提出了一套面向计算的语义构词结构体系,通过随机森林自动标注与人工校验相结合的方式构建汉语语义构词知识库,并在词义生成的任务上对该资源进行计算评估。实验取得了良好的结果。基于语义构词知识库的词义生成BLEU值达25.07,较此前的语法构词提升了3.17%,初步验证了这种知识表示方法的有效性。该知识表示方法与资源建设将为人文领域和信息处理等应用提供新的思路与方案。Chinese is a paratactic language,where the ways and rules of its word-formation play an important role in describing and understanding the meanings of words.There are two perspectives on morphemes and word-formation in linguistics:grammatical word-formation and semantic word-formation,with the latter indicating a deeper relationship between morphemes.In this paper,following the perspective of semantic word-formation,we propose a set of computingoriented semantic word-formation labels based on characteristics of Chinese,build a Chinese semantic word-formation knowledge-base by combining random forest automatic labeling and manual verification,and evaluate the resource on the task of definition generation.Experimental results show that definitions generated from the semantic word-formation knowledge-base achieve a BLEU value of 25.07,which is 3.17%higher than previous grammatical word-formation approach.These findings confirm the effectiveness of our knowledge representation and resource construction,which may provide new insights into and solutions for a variety of tasks in humanities and computing applications.

关 键 词:汉语语素 汉语语义构词 资源建设 词义生成 

分 类 号:H087[语言文字—语言学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象