一种基于SVM的英/美式英语的文本分类方法  被引量:4

A text classification method of British English and American English based on SVM

在线阅读下载全文

作  者:成洁[1] CHENG Jie(School of Liberal Arts,Shaanxi Institute of International Trade and Commerce,Xi’an 712046,China)

机构地区:[1]陕西国际商贸学院通识学院,陕西西安712046

出  处:《电子设计工程》2021年第14期70-74,79,共6页Electronic Design Engineering

基  金:2019陕西省教育厅专项科研计划项目(19JK0090);2019陕西省社会科学基金项目(2019M032)。

摘  要:英语是国际上常用的语言。目前,经常使用的英语是英式英语和美式英语。但是从词汇到语法,它们都有根本的区别。在学习英语的过程中,人们必须确保他们要学习的英语类型。因此,该研究建立了一个文本分类系统,可以根据文本中使用的英语类型对句子进行分类。其核心是使用N-gram特征、字词频率反转文件频率加权(TF-IDF)和附加字词字典作为特征。在TF-IDF加权过程中,给出了文档频率(DF)的阈值。并采用线性核支持向量机(SVM)算法进行分类。实验结果表明,得到的最佳分类精度为96.53%。English is a commonly used language internationally.At present,the most frequently used English is British English and American English.But from vocabulary to grammar,they are fundamentally different.In the process of learning English,people must ensure the type of English they want to learn.Therefore,this research has established a text classification system that can classify sentences according to the type of English used in the text.The core is to use N-gram features,Term Frequency-Inverse Document Frequency(TF-IDF)and additional word dictionary as features.In the TFIDF weighting process,the threshold of Document Frequency(DF)is given.And use linear kernel Support Vector Machine(SVM)algorithm for classification.The experimental results show that the best classification accuracy is 96.53%.

关 键 词:文本分类 SVM 权重 英式英语 美式英语 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象