基于最优文档嵌入的《红楼梦》作者辨析  被引量:2

An Analysis of Authorship of A Dream of Red Mansions Based on Optimal Document Embedding

在线阅读下载全文

作  者:薛扬 梁循[1,2] 谢华伦 杜玮 XUE Yang;LIANG Xun;XIE Hualun;DU Wei(School of Information,Renmin University of China,Beijing 100872,China;State Key Laboratory of Digital Publishing Technology,Peking University Founder Group Corp,Beijing 100871,China)

机构地区:[1]中国人民大学信息学院,北京100872 [2]北大方正集团有限公司数字出版技术国家重点实验室,北京100871

出  处:《中文信息学报》2020年第9期97-110,共14页Journal of Chinese Information Processing

基  金:国家自然科学基金(71531012);数字出版技术国家重点实验室开放课题。

摘  要:该文以包括《红楼梦》在内的51部当代及明清文学作品为语料集,利用文档嵌入算法,根据文档嵌入向量的酉不变性定义了不同作者作品文档嵌入矩阵及文档嵌入损失函数,构建了文档嵌入模型中最优维度及最优窗口的选择模型,并根据文本用词和文档主题语义特征构建了高维空间中的文档嵌入向量。通过无监督的流形学习降维映射以及有监督的分类算法多组实验,验证了通过文档嵌入得到的向量空间模型可以有效区分不同作者的写作风格,对于已知确定作者的作品分类准确率达99.6%,对于风格较为接近的作者也可以有效识别,例如,文风相似的路遥和陈忠实。并在此分类模型的基础上,构建了变尺度滑动窗口分类模型对《红楼梦》进行深入分析,印证了"红楼梦"前80回与后40回可能来自不同作者,还发现了前100回与后20回也存在着较大的风格差异,不排除有再次更换作者的可能。该文在计算机技术层面上为《红楼梦》的作者辨析问题提供了一种支持意见和新的见解。A document embedding model is designed and trained over a corpus of 51 contemporary and Ming and Qing literary works including A Dream of Red Mansions.To achieve the optimal high-dimension document embedding vector to represent the semantic characteristics of words and document topics,the document embedding matrix and loss function of different authors are defined according to the unitary invariance of document embedding vector.An authorship identification method is designed by an unsupervised manifold learning dimensionality reduction mapping algorithm and a supervised classification algorithm.The classification accuracy of the known authors reaches 99.6%,even authors with similar styles such as Lu Yao and Chen Zhongshi can be effectively distinguished.The variable-scale sliding window classification model is further proposed to conduct an in-depth analysis of A Dream of Red Mansion.It is found that the first 80 chapters and the last 40 chapters may come from different authors,and there are also some style differences between the first 100 and the last 20 chapters.

关 键 词:红楼梦 作者识别 文档嵌入 最优维度 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象