一种面向程序理解的程序语义聚类技术  

Semantics-driven Program Clustering for Program Comprehension

在线阅读下载全文

作  者:陈颖[1] CHEN Ying(School of Information Engineering,Yangzhou University,Yangzhou 225127,China)

机构地区:[1]扬州大学信息工程学院

出  处:《软件导刊》2019年第10期62-64,共3页Software Guide

基  金:江苏省教育信息化研究基金项目(20180104);中国民航信息技术科研基地开放基金项目(CAAC-ITRB-201704)

摘  要:针对源代码中一些非结构化的自然语言描述信息进行语义聚类,辅助开发人员开展程序理解。主要利用自然语言处理技术对程序中的标识符和注释进行预处理,将程序转换成词频矩阵;然后利用潜在语义索引技术对该词频矩阵进行层次聚类,并对每个聚类的标记进行推荐,辅助开发人员理解程序。在开源项目JEdit上进行验证,结果显示对该5万行规模的项目代码进行聚类时耗不足1分钟。因此,该技术能够快速对程序进行语义聚类,辅助开发人员快速理解程序。This paper focuses on semantic clustering for program comprehension on the unstructured textual information.First,we employ the natural language processing technique to pre-process the natural language text in the program,and gets an intermediate representation,i.e.,term-document matrix.Then,we use the LSI(Latent Semantic Indexing)technique to analyze the matrix,and get a set of hierarchical clusters.In order to facilitate comprehension of each cluster,we also generate the recommendations of words to label each cluster.We evaluated our approach on the open source project,JEdit,and the results showed that the time required to cluster such scale of 50,000-LOC project was less than 1 minute.Hence,the proposed technique can quickly perform the program semantic clustering,supporting developers’quick program understanding.

关 键 词:程序理解 语义聚类 潜在语义索引 语义标注 

分 类 号:TP303[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象