检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:周义凯 刘海涛[1] ZHOU Yikai;LIU Haitao
出 处:《语言文字应用》2024年第2期124-134,共11页Applied Linguistics
基 金:教育部人文社会科学重点研究基地重大项目“数据驱动的外语能力发展研究”(22JJD740018)的资助。
摘 要:本文用兰卡斯特汉语语料库中15种书面语体的文本研究了汉语整句、小句单位长度的关系,并比较了其中3种语体文本与ChatGPT生成文本的句长分布。结果表明:现代汉语书面语的整句和小句符合语言中相邻层级单位的长度关系规律;ChatGPT生成的汉语文本基本符合自然语言句长的概率分布与单位层级规律,但在遵循省力原则、语体区分能力等方面同真实文本尚有差距。大语言模型已经获取了一些自然语言中的统计规律,但还没有完全掌握真实文本中一些细节特征。This paper studies the relationship of full sentence lengths and minor sentence lengths using 15 written genres of texts in the Lancaster Corpus of Modern Chinese and compares the sentence length distribution of three of them with that of the text generated by ChatGPT.The full and minor sentences in written modern Chinese conform to the length relation patterns of adjacent hierarchical units in human languages.The Chinese text generated by ChatGPT basically conforms to the frequency distribution and hierarchical unit patterns of natural languages,but there are still gaps in Least Effort Principle and genre differentiation.The findings show that the large language models can grasp the statistical law of natural language,but they may not have mastered the subjective characteristics of authentic texts.
关 键 词:现代汉语 句长分布 语言普遍性 语体差异 ChatGPT
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.219.81.99