基于word2vec的程序编译错误信息特征提取方法  被引量:1

Feature Extraction Method of Program Compilation Error Information Based on Word2vec

在线阅读下载全文

作  者:何烨辛 谷林 孙晨 HE Yexin;GU Lin;SUN Chen(School of Computer Science,Xi'an Polytechnic University,Xi'an 710048;College of Management,Xi'an University of Science and Technology,Xi'an 710054;New Rural Cooperative Medical Service Operation Center,Yanliang District,Xi'an 710089)

机构地区:[1]西安工程大学计算机科学学院,西安710048 [2]西安科技大学管理学院,西安710054 [3]西安市阎良区新型农村合作医疗经办中心,西安710089

出  处:《计算机与数字工程》2022年第6期1317-1322,共6页Computer & Digital Engineering

摘  要:输入表示为固定长度的特征向量是机器学习算法要求之一。针对编程中的编译错误信息特征,论文提出了基于word2vec模型对编译错误信息进行特征提取。利用滑动窗口取词的方式,建立one-hot字典,结合word2vec中的Skip-gram模型,构建Huffman树,从可变长度的文本中学习固定长度的特征表示。最后使用SVM分类算法进行实验结果的验证。结果表明,该特征提取方法在编译错误信息中有显著的效果。One of the requirements of machine learning algorithms is to represent the input as a fixed length eigenvector.Aiming at the features of compile error information in programming,this paper proposes to extract the features of compile error information based on word2vec model.The one-hot dictionary is established by using the sliding window to pick words,and the Skip-gram model in word2vec is combined to build the Huffman tree to learn the feature representation of fixed length from the text of variable length.Finally,SVM classification algorithm is used to verify the experimental results.The results show that the feature extraction method is effective in compiling error messages.

关 键 词:word2vec 编译错误信息 Skip-gram模型 HUFFMAN树 SVM 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象