面向软件缺陷报告的提取方法被引量：1

Extraction Approach for Software Bug Report

机构地区：[1]上海师范大学计算机科学与工程系,上海200234 [2]奥克兰大学信息系统系,奥克兰92019

出　　处：《计算机科学》2016年第6期179-183,共5页Computer Science

基　　金：国家自然科学基金(61073163;61373004);上海市企业自主创新专项资金项目(沪CXY-2013-88)资助

摘　　要：软件工程中的软件缺陷报告数量在快速增长,开发者们越来越困惑于大量的缺陷报告。因此,为了达到缺陷修复和软件复用等目的,有必要研究软件缺陷报告的提取方法。提出一种提取方法,该方法首先合并缺陷报告中的同义词,然后建立空间向量模型,使用词频反文档频率以及信息增益等文本挖掘的方法来收集软件缺陷报告中单词的特征,同时设计算法来确定句子复杂度以选择长句,最后将贝叶斯分类器引入该领域。该方法可以提高缺陷报告提取的命中率,降低虚警率。实验证明,基于文本挖掘和贝叶斯分类器的软件缺陷报告提取方法在接受者工作特征曲线面积(0.71)、F-score(0.80)和Kappa值(0.75)方面有良好效果。Bug reports in software engineering areincreasing rapidly, and developers are bewildered by the large number accumulation of reports. Therefore, it is necessary to study on the extraction of bug reports for the task of bug fixing and software reuse, etc. This paper proposed a novel extraction approach. Synonyms are merged into one specific word firstly in the approach. Then it sets up a vector space model. And some text mining methods, such as TF-IDF and information gain,are used to collect word features in bug reports specifically. Meanwhile, there is an algorithm for determining sentence complexity, so as to choose long sentences. Finally Bayes classifier is introduced to bug report extraction. TPR is increased and FPR is decreased in this approach. The experiment proves that the bug report extraction based on text mining and Bayes classifier is competitive in the evaluation of AUC（0. 71） ,F-score（0. 80） and Kappa value（0. 75）.

关键词：软件缺陷报告管理文本挖掘贝叶斯分类器软件缺陷报告特征空间向量模型句子复杂度

分类号：TP311.5[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

面向软件缺陷报告的提取方法被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

面向软件缺陷报告的提取方法 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

面向软件缺陷报告的提取方法被引量：1