基于句类特征的作者写作风格分类研究  被引量:19

Research on text authorship categorization based on sentence category features

在线阅读下载全文

作  者:张运良[1] 朱礼军[1] 乔晓东[1] 张全[2] 

机构地区:[1]中国科学技术信息研究所,北京100038 [2]中国科学院声学研究所,北京100080

出  处:《计算机工程与应用》2009年第22期129-131,223,共4页Computer Engineering and Applications

基  金:国家重点基础研究发展规划(973)No.2004CB318104;国家"十一五"科技支撑计划项目资助No.2006BAH03B03~~

摘  要:不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用itc算法对特征项进行权重计算,KNN算法进行分类并利用集成判决技术,形成作者写作风格分类器。本分类器的性能在近现代小说的按作者写作风格的分类和鉴别方面的性能是可以接受的,并有进一步提升的可能。There is a lot of difference in the composition style of different authors and the difference can be discovered by features of word,sentence pattern,rhetoric etc.In this paper,sentence category features are adopted for text categorization and author recognition.This paper uses sentence category vector space model,sentence category features,mixed sentence categories dimensionality reduction,ire weighting method,KNN algorithm and integration decision method to build an authorship classifier. The performance of the authorship classifier is acceptable and can be improved by bigger knowledge base, HNC techniques and machine learning algorithm.

关 键 词:文本分类 作者写作风格 句类 向量空间模型 概念层次网络(HNC)理论 自然语言理解 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象