基于辅助集的专利主题分析领域停用词选取  被引量:6

Choosing Stopwords for Patent Topic Analysis Based on Auxiliary Set

在线阅读下载全文

作  者:俞琰 赵乃瑄[1] Yu Yan;Zhao Naixuan(Information Service Department,Nanjing Tech University,Nanjing 210009,China;Department of Computer Engineering,Southeast University Chcngxian College,Nanjing 211816,China)

机构地区:[1]南京工业大学信息服务部,南京210009 [2]东南大学成贤学院计算机工程系,南京211816

出  处:《数据分析与知识发现》2018年第11期95-103,共9页Data Analysis and Knowledge Discovery

基  金:国家社会科学基金项目"大数据时代支持创新设计的多维度多层次专利文本挖掘研究"(项目编号:17BTQ059)的研究成果之一

摘  要:[目的]提出一种领域停用词自动选取方法,以提高专利主题分析的区分度和质量。[方法]针对要进行专利主题分析的目标集,引入专利辅助集,提出基于辅助集文档频率和类别熵两个指标,衡量词语在辅助集中分布情况,自动识别领域停用词。[结果]实验结果表明,基于辅助集的领域停用词选取方法能够提高专利主题分析的区分度和质量。[局限]辅助集的选取类型和数量有待进一步研究。[结论]基于辅助集的领域停用词选取方法能够有效地衡量词的分布特征,从而更准确地选取专利主题分析中的领域停用词。[Objective] This paper proposes a new method to automatically choose domain specific stopwords, aiming to improve the performance of patent topic analysis. [Methods] First, we introduced an auxiliary set and proposed two indexes of document frequency and entropies among categories based on this auxiliary set. Then, we measured the distribution of words from the auxiliary set to choose the domain specific stopwords automatically. [Results] The proposed method improved the quality of identified patent topics. [Limitations] The types and members of the auxiliary set need to be further studied. [Conclusions] The proposed stopwords selection methods could measure the characteristics of words, which helps us find the domain specific stopwords for patent analysis more effectively.

关 键 词:专利主题分析 领域停用词 辅助集 

分 类 号:G250[文化科学—图书馆学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象