检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:胡侠[1] 林晔[1] 汪亮[1] 盛夏[2] 王灿[2]
机构地区:[1]杭州市科技信息研究院,杭州310001 [2]浙江大学计算机学院,杭州310027
出 处:《情报学报》2012年第11期1187-1193,共7页Journal of the China Society for Scientific and Technical Information
摘 要:专利数据包含了各种丰富的信息。通过对专利数据聚类,可以将它们划分为语义或结构上相似的子集,从而为发现数据中所蕴含的有用模式和知识提供更为深入的洞察力。传统的专利数据聚类方法通常只是利用专利数据的某项属性实现聚类,没有充分利用专利数据所包含的多种丰富信息。本文针对现有专利数据聚类方法的不足,提出了一种综合利用专利摘要文本和IPC分类号的专利聚类方法PDICluster。该方法通过解析IPC分类号中包含的树型结构信息,利用树距离度量专利数据之间的相似性,并综合专利摘要文本相似性和IPC分类号相似性信息来实现专利数据聚类。实际专利数据上的聚类实验结果验证了PDICluster方法的有效性。Patent data involves rich information. By clustering patent data into subsets that are similar in semantics or structure, we can better discover useful patterns and knowledge in them. Traditional patent clustering methods usually cluster patent data by one single attribute such as patent text and fail to exploit rich information in patent data. To address this issue, this paper proposes a novel patent clustering algorithm PDICluster that incorporates both patent abstract text and IPC term to better group patent data into semantically related clusters. By parsing the hierarchical structure in 1PC term, PDICluster measures pairwise similarity between patent data using tree-distance. It then incorporates both textual similarity and hierarchical similarity in clustering by projecting the patent data into a low-dimensional space that keeps the data distribution characteristics in the original space. Experimental results on practical patent data demonstrate the effectiveness of our algorithm.
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117