基于信息熵的语言风格分析方法初探  被引量:4

A preliminary study on text style analysis based on information entropy

在线阅读下载全文

作  者:王泓 方艳梅[1] 黄方军[1] WANG Hong;FANG Yanmei;HUANG Fangjun(School of Data and Computer Science,Sun Yat-sen University,Guangzhou 510006,China)

机构地区:[1]中山大学数据科学与计算机学院,广东广州510006

出  处:《中山大学学报(自然科学版)》2020年第6期113-125,共13页Acta Scientiarum Naturalium Universitatis Sunyatseni

基  金:国家自然科学基金(62072481,61772572);中韩国际交流合作(61811540409)。

摘  要:提出一种对于词汇丰富程度的量化标准——信息熵,并验证信息熵的确可以反映文本的词汇丰富程度。先将英文小说分成四类,分别是魔幻/科幻小说,推理小说,幽默讽刺小说,儿童文学。并计算每一类中的每一本英文小说作品的信息熵,然后通过图表的方式对这四类小说的信息熵进行对比,并且根据以往的对于小说风格的研究和平时的阅读经验,观察四类小说的信息熵差别是否如同预期所猜想的一致。通过验证发现,儿童文学的信息熵普遍偏低,而魔幻/科幻小说的信息熵普遍较高,而根据以往的研究和平时的阅读体验来看,魔幻/科幻小说词汇丰富程度确实较高,儿童文学词汇丰富程度的确较低。之后用假设检验的方法验证不同类型作品信息熵的差异。由此说明信息熵可以作为反应词汇丰富程度的一个指标。It is proposed and verified that the information entropy is a quantitative standard for lexical richness.Firstly,the English novels are categorized into four groups,namely,magic/science fiction,mystery novels,humorous satirical novels,and children's literature.Then the authors calculate the information entropy of each English novel,compare the information entropy of the four groups by means of graphs,and observe whether the difference of information entropy among these four categories consists with what the authors'expectation.Through verification,the authors find that the information entropy of children's literature is averagely the lowest,and the information entropy of magic/science fiction is generally higher.According to previous studies and our usual reading experience,the magic/science fiction indeed has higher vocabulary richness,and the vocabulary richness in children's literature is lower.Finally,the authors use hypothesis testing to verify the difference of entropy among the categories.Then,the authors conclude that information entropy can be used as an indicator of the vocabulary richness.

关 键 词:信息熵 词汇丰富程度 计量风格学 统计假设检验 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象