检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学院成都计算机应用研究所,成都610041 [2]中国科学院大学,北京100049 [3]中国科学院成都文献情报中心,成都610041
出 处:《计算机应用》2013年第A01期87-89,93,共4页journal of Computer Applications
摘 要:针对传统专利情报采集的方式不能适应专利信息快速增加的问题,通过研究适用于专利信息聚类的主题模型和聚类算法,提出了将潜在狄利克雷分配(LDA)主题模型和OPTICS算法相结合的解决方案。该方案采用LDA主题模型将专利信息在词汇空间的高维表达转换到在主题空间的低维表达,高效地实现了对专利信息的降维,进而采用OPTICS算法及k近邻准则对专利信息进行聚类分析,达到收集感兴趣的专利情报信息的目的。理论分析和实验验证表明,提出的解决方案不仅能通过降维,提高专利聚类效率,而且能对专利信息分析提供帮助。To solve the problem that the traditional way of collecting patent intelligence can not adapt to the rapid increase of patent information, by researching the problem of the classification of patent information with the consideration of the characteristics of patent information, a solution that combined Latent Dirichlet Allocation (LDA) topic model and Ordering Points to Identify the Clustering Structure (OPTICS) algorithm was proposed. This solution adopted LDA topic model to realize dimension reduction for patent information efficiently, through transforming high dimensional expression of patent information in lexical space to low dimensional expression in topic space, and used OPTICS algorithm and k-nearest neighbor to implement clustering analysis of patent information, in order to collect interesting patent intelligence. Theoretical analysis and experimental verification indicate that the solution can improve the efficiency of patent clustering via dimension reduction and contribute to the analysis of patent information.
关 键 词:潜在狄利克雷分配主题模型 聚类分析 OPTICS算法 专利信息聚类 专利分析
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30