基于树距离规范化的专利聚类方法  被引量:2

Patent Data Clustering Based on Tree-distance Regularized

在线阅读下载全文

作  者:胡侠[1] 林晔[1] 汪亮[1] 盛夏[2] 王灿[2] 

机构地区:[1]杭州市科技信息研究院,杭州310001 [2]浙江大学计算机学院,杭州310027

出  处:《情报学报》2012年第11期1187-1193,共7页Journal of the China Society for Scientific and Technical Information

摘  要:专利数据包含了各种丰富的信息。通过对专利数据聚类,可以将它们划分为语义或结构上相似的子集,从而为发现数据中所蕴含的有用模式和知识提供更为深入的洞察力。传统的专利数据聚类方法通常只是利用专利数据的某项属性实现聚类,没有充分利用专利数据所包含的多种丰富信息。本文针对现有专利数据聚类方法的不足,提出了一种综合利用专利摘要文本和IPC分类号的专利聚类方法PDICluster。该方法通过解析IPC分类号中包含的树型结构信息,利用树距离度量专利数据之间的相似性,并综合专利摘要文本相似性和IPC分类号相似性信息来实现专利数据聚类。实际专利数据上的聚类实验结果验证了PDICluster方法的有效性。Patent data involves rich information. By clustering patent data into subsets that are similar in semantics or structure, we can better discover useful patterns and knowledge in them. Traditional patent clustering methods usually cluster patent data by one single attribute such as patent text and fail to exploit rich information in patent data. To address this issue, this paper proposes a novel patent clustering algorithm PDICluster that incorporates both patent abstract text and IPC term to better group patent data into semantically related clusters. By parsing the hierarchical structure in 1PC term, PDICluster measures pairwise similarity between patent data using tree-distance. It then incorporates both textual similarity and hierarchical similarity in clustering by projecting the patent data into a low-dimensional space that keeps the data distribution characteristics in the original space. Experimental results on practical patent data demonstrate the effectiveness of our algorithm.

关 键 词:专利聚类 专利分析 IPC 树距离 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象