检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京语言大学汉语国际教育技术研发中心,北京100083
出 处:《计算机工程与应用》2014年第6期118-122,126,共6页Computer Engineering and Applications
基 金:国家自然科学基金(No.60573184;No.60973062;No.61170162)
摘 要:作文特征选取是研究汉语作为第二语言的水平测试自动作文评分的关键问题之一,以中国汉语水平考试作文为研究对象,从字、词、语法、成段表达、庄雅度等多个层面上,选取107个作文特征,经相关度计算得到19个与作文分数较为相关的作文特征。基于选取的作文特征,采用多元线性回归方法进行回归实验和稳定性交叉实验。实验表明,作文长度、词汇使用和成段表达方面的作文特征对作文得分具有较好的解释能力,多元线性回归方法应用于中国汉语水平考试自动作文评分具有较好的稳定性。Feature selection is a key issue in automated essay scoring for Chinese as second language. Focusing on HSK composition test, 107 features are extracted, mainly describing Chinese character using, word using, grammatical mis-takes, paragraph expression, formality measuring, etc. 19 of them are proved to have strong correlation with composition scoring, through relativity calculation. Based on the selected features, multiple linear regression and stability cross experi-ment are utilized. Essay length, word use and paragraph expression are found to be explanatory capable and multiple lin-ear regression provides better stability in HSK composition test.
关 键 词:中国汉语水平考试 自动作文评分 特征选取 多元线性回归
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.200