面向Java程序包的代码概要自动生成技术研究  被引量:4

Research on Automatic Summarization for Java Packages

在线阅读下载全文

作  者:柳郁[1] 孙小兵[1,2] 李斌[1,2] LIU Yu;SUN Xiaobing;LI Bin(School of Information Engineering, Yangzhou University, Yangzhou, Jiangsu 225127, China;State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210023, China)

机构地区:[1]扬州大学信息工程学院,江苏扬州225127 [2]南京大学计算机软件新技术国家重点实验室,南京210023

出  处:《计算机科学与探索》2017年第2期212-220,共9页Journal of Frontiers of Computer Science and Technology

基  金:国家自然科学基金Nos.61402396;61472344;中国博士后面上项目No.2015M571489;软件新技术国家重点实验室开放课题项目No.KFKT2016B21;江苏省教育厅自然科学基金面上项目No.13KJB520027~~

摘  要:程序理解是从软件程序中获得抽象在程序中的功能和知识的过程,对软件维护有着重要的意义。研究表明,软件维护消耗了软件预算的50%到80%,而其中大概47%到62%的维护时间用于对软件系统的理解上。提出了一种面向Java程序的包概要方法,尝试从软件的语义层次出发,利用信息索引领域的潜在语义分析和数据挖掘领域的聚类算法对软件程序中的语义信息进行提取分析。对相似词汇的代码文件进行聚类,并从中提取话题对Java程序中的包进行刻画;对这些话题进行语义恢复,并利用MiniPar,一个英文词法分析器,来辅助生成程序中包的概要信息。实验结果表明该方法能够改进程序理解的效率。Program comprehension is a process of acquiring knowledge from software systems and is important tosoftware maintenance.It is estimated that about50%to80%software budget is spent on software maintenance,andabout47%to62%software maintenance is spent on program comprehension.This paper proposes a novel approachto summarize the packages in a software system based on Java,which employs latent semantic indexing,a typicalinformation retrieve technique,and hierarchical clustering to derive artifacts from source code and group sourcefiles sharing similar vocabulary.Then,topics are retrieved from these clusters and linguistic information is recoveredfrom the generated vocabulary.Finally,this paper employs MiniPar,a parser for English language,to generatethe package summarization.The experimental results show that the proposed approach can improve the efficiency ofprogram comprehension process.

关 键 词:程序理解 潜在语义分析 聚类 话题 概要化 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象