检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:林涛[1] 高建华[1] 伏雪[1] 马燕[1] 林艳[2]
机构地区:[1]上海师范大学计算机科学与工程系,上海200234 [2]奥克兰大学信息系统系,奥克兰92019
出 处:《计算机科学》2016年第6期179-183,共5页Computer Science
基 金:国家自然科学基金(61073163;61373004);上海市企业自主创新专项资金项目(沪CXY-2013-88)资助
摘 要:软件工程中的软件缺陷报告数量在快速增长,开发者们越来越困惑于大量的缺陷报告。因此,为了达到缺陷修复和软件复用等目的,有必要研究软件缺陷报告的提取方法。提出一种提取方法,该方法首先合并缺陷报告中的同义词,然后建立空间向量模型,使用词频反文档频率以及信息增益等文本挖掘的方法来收集软件缺陷报告中单词的特征,同时设计算法来确定句子复杂度以选择长句,最后将贝叶斯分类器引入该领域。该方法可以提高缺陷报告提取的命中率,降低虚警率。实验证明,基于文本挖掘和贝叶斯分类器的软件缺陷报告提取方法在接受者工作特征曲线面积(0.71)、F-score(0.80)和Kappa值(0.75)方面有良好效果。Bug reports in software engineering areincreasing rapidly, and developers are bewildered by the large number accumulation of reports. Therefore, it is necessary to study on the extraction of bug reports for the task of bug fixing and software reuse, etc. This paper proposed a novel extraction approach. Synonyms are merged into one specific word firstly in the approach. Then it sets up a vector space model. And some text mining methods, such as TF-IDF and information gain,are used to collect word features in bug reports specifically. Meanwhile, there is an algorithm for determining sentence complexity, so as to choose long sentences. Finally Bayes classifier is introduced to bug report extraction. TPR is increased and FPR is decreased in this approach. The experiment proves that the bug report extraction based on text mining and Bayes classifier is competitive in the evaluation of AUC(0. 71) ,F-score(0. 80) and Kappa value(0. 75).
关 键 词:软件缺陷报告管理 文本挖掘 贝叶斯分类器 软件缺陷报告特征 空间向量模型 句子复杂度
分 类 号:TP311.5[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.31