基于互联网的汉语认知属性获取及分析  被引量:18

Collection and Analysis on Chinese Cognitive Properties Based on Web Data

在线阅读下载全文

作  者:李斌[1] 陈家骏[2] 陈小荷[1] 

机构地区:[1]南京师范大学文学院,江苏南京210097 [2]南京大学计算机软件新技术国家重点实验室,江苏南京210093

出  处:《语言文字应用》2012年第3期134-143,共10页Applied Linguistics

基  金:国家社科基金项目(10CYY021);中国博士后基金(2012M510178);江苏省博士后基金(1101065C);南京大学计算机软件新技术国家重点实验室开放课题(KFKT2011B03);江苏高校优势学科建设工程的资助

摘  要:认知语义学强调词语的日常感知意义的描写,但传统的人工描写方式存在搜集难度大、主观性过强两大困难。本文基于互联网数据,利用知网收录的51020个名词、27901个动词和12252个形容词自动采集词语的认知属性,得到120多万条原始记录。对这些结果按词类进行详细的频率统计和数据分析,构建了6000多词条的汉语常用词语的认知属性库,尝试了夸张和反讽的自动生成。该研究可应用于计算机理解和生成修辞表达、语言教学、词典编纂和机器翻译等领域。Cognitive linguistics centers the description of the common cognitive meanings of words.However,to manually collect and describe the cognitive meanings are boring and subjective.In order to overcome the shortcomings of traditional researches,this paper employs the web to collect the cognitive properties of words in HowNet which contains 51020 nouns,27901 verbs and 12252 adjectives.Over 1.2 million records are gained and statistically analyzed.Thus,a cognitive property bank of over 6000 Chinese common words is constructed and tested in automatic generation of exaggerations and ironies.The research has further applications in natural language understanding and generation,language teaching,lexicography,machine translation and other fields.

关 键 词:认知属性 隐喻 显著度 认知计算 

分 类 号:H085[语言文字—语言学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象