中文词汇增长研究  被引量:2

A Study of Chinese Vocabulary Growth

在线阅读下载全文

作  者:王珊 王会珍 WANG Shan;WANG Huizhen(Faculty of Arts and Humanities,University of Macao,Macao,China;Institute of Collaborative Innovation,University of Macao,Macao,China;School of Computer Science and Engineering,Northeastern University,Shenyang,Liaoning 110167,China)

机构地区:[1]澳门大学人文学院,中国澳门 [2]澳门大学协同创新研究院,中国澳门 [3]东北大学计算机科学与工程学院,辽宁沈阳110167

出  处:《中文信息学报》2021年第1期17-24,共8页Journal of Chinese Information Processing

基  金:澳门大学多年研究基金(MYRG2019-00013-FAH);启动基金(SRG2018-00126-FAH)。

摘  要:词汇增长研究能够分析文本的TTR在不同时期的变化,该文选取1954—2018年的中国政府工作报告为语料,分析文本中词例与词种的曲线变化,挖掘政府工作报告中的词汇丰富度与政策的相互关系。该文首先对语料进行了分词,然后根据曲线拟合效果选择拟合更好的Heaps模型进行预测。以中国的"五年计划"作为基础时间周期,对各周期模型预测值与现实观测值的差值进行分析,并与随机打乱后的文本计算结果进行对比,进一步验证了实验的结果。研究发现随着时间变化,词汇增长呈现出一定的倾向性:在深化改革、新政策出台等时期,一般需要更多的词语来描述,此时观测值高于预测值,而在政策相对稳定的时期,对原有词汇的使用较多,此时观测值低于预测值。该文以中文语料作为研究对象,分析其历时变化,能够为中文词汇增长研究提供借鉴。Vocabulary growth research is based on the type-token-ratio(TTR) changes of the texts in different periods. This article selects Reports on the Work of the Chinese Government from 1954 to 2018, analyzes the curves of tokens and types in the texts, and explores the interaction between vocabulary richness of the reports and the policies. It first conducts Chinese word segmentation on the corpus and then selects the Heaps model for prediction according to different curve fitting effects. Taking China’s Five-Year Plan as the basic time cycle, the difference between the predicted value and the observed value of each cycle is compared with that of the random texts. The study reveals that vocabulary growth with time changes shows a certain tendency: in the period of deepening reforms and launching new policies, more words are needed to describe the phenomenon and the observed value is higher than the predicted value. With the analysis of the diachronic changes of Chinese texts, this paper provides references for the study of Chinese vocabulary growth.

关 键 词:中文 词汇增长 词汇丰富度 TTR Heaps模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象