HSK自动作文评分的特征选取研究  被引量:17

Study of feature selection in HSK automated essay scoring

在线阅读下载全文

作  者:黄志娥 谢佳莉 荀恩东[1] 

机构地区:[1]北京语言大学汉语国际教育技术研发中心,北京100083

出  处:《计算机工程与应用》2014年第6期118-122,126,共6页Computer Engineering and Applications

基  金:国家自然科学基金(No.60573184;No.60973062;No.61170162)

摘  要:作文特征选取是研究汉语作为第二语言的水平测试自动作文评分的关键问题之一,以中国汉语水平考试作文为研究对象,从字、词、语法、成段表达、庄雅度等多个层面上,选取107个作文特征,经相关度计算得到19个与作文分数较为相关的作文特征。基于选取的作文特征,采用多元线性回归方法进行回归实验和稳定性交叉实验。实验表明,作文长度、词汇使用和成段表达方面的作文特征对作文得分具有较好的解释能力,多元线性回归方法应用于中国汉语水平考试自动作文评分具有较好的稳定性。Feature selection is a key issue in automated essay scoring for Chinese as second language. Focusing on HSK composition test, 107 features are extracted, mainly describing Chinese character using, word using, grammatical mis-takes, paragraph expression, formality measuring, etc. 19 of them are proved to have strong correlation with composition scoring, through relativity calculation. Based on the selected features, multiple linear regression and stability cross experi-ment are utilized. Essay length, word use and paragraph expression are found to be explanatory capable and multiple lin-ear regression provides better stability in HSK composition test.

关 键 词:中国汉语水平考试 自动作文评分 特征选取 多元线性回归 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象