检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李逍 顾长贵 杨雷鑫 陆祺灵 LI Xiao;GU Changgui;YANG Leixin;LU Qiling(Business School,University of Shanghai for Science and Technology,Shanghai 200093,China)
出 处:《智能计算机与应用》2021年第1期14-19,共6页Intelligent Computer and Applications
基 金:国家自然科学基金(11875042);上海理工大学大学生创新创业计划资助项目(SH2020072)。
摘 要:基于滑动窗口的方法,结合机器学习分类技术,可以判定文本的作者归属。但是此类方法需要精心挑选对应的文本特征,不同的文本特征选取可能会影响判定结果。针对以上问题,提出了一种基于快速文本分类(fastText)的文本作者归属判定模型。该模型融合滑动窗口的思想,引入词(字)向量、数据增强技术,从而充分利用文本信息、自动提取文本特征,并且以可视化的方式将结果呈现出来。使用该模型来检测《红楼梦》、《Roman de la Rose》的作者归属,实验结果表明《红楼梦》的前八十回与后四十回为不同作者所著、《Roman de la Rose》开篇4 058行(约50 000字)与后面17 724行(约218 000字)为不同作者所著。证明了Rolling-fastText模型判定文本作者归属的有效性。Some methods are based on sliding window and machine learning,which can determine the authorship attribution of text.However,these methods require careful selection of text features,and different text features may affect the outcome of the authorship attribution.In response to the above problems,this paper proposes a model based on fastText classification to determine authorship attribution.The model incorporates the idea of the sliding window,introduces word(character) vectors and data enhancement technology,so as to make full use of text information and extract text features automatically,and presents the results in a manner of visualization.Finally,this paper uses the model to detect the authorship attribution of 《A Dream of Red Mansions》 and《Roman de la Rose》.The experimental results show that the first 80 chapters and the last 40 chapters of《A Dream of Red Mansions》 are written by different authors,the opening 4 058 lines(approximately 50 000 words) and the following 17 724 lines(approximately 218 000 words) of《Roman de la Rose》 are written by different authors.It is proved that this model is effective to determine the authorship attribution.
关 键 词:滑动窗口 作者归属 快速文本分类器 数据增强技术 可视化
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.248