专利文献中关键词抽取方法的改进  被引量:5

Keyword Extraction of Patent Document: An Improved Approach

在线阅读下载全文

作  者:刘峰[1] 吴瑞红[2] 徐川[1,2] 吕学强[2] 

机构地区:[1]公安部第一研究所,北京100048 [2]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101

出  处:《情报杂志》2014年第12期36-40,共5页Journal of Intelligence

基  金:国家自然科学基金项目"基于本体的专利自动标引研究"(编号:61271304);北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目"面向领域的互联网多模态信息精准搜索方法研究"(编号:KZ201311232037)

摘  要:专利关键词是对专利文献的高度概括,正确提取专利文献中的关键词对于专利文献的分类、标引、聚类等具有重要意义。结合专利文献的特点,在目前已有方法的基础上,提出了专利文献中领域公共词提取方法、词素加权方法以及并列结构惩罚的方法,将其应用到专利文献关键词抽取中。在过滤公共词的基础上,综合运用词在文献中出现的位置、词频、词素和并列结构计算词对文献主题的影响度,抽取专利文献中的关键词。实验结果表明,在抽取关键词个数为5-9个时,所提方法优于局部加权TF-IDF方法,验证了所提方法的有效性。Patent keywords are the high-level summary of the patent document, correctly extract the key words in the patent document has important implications for patent document classification, indexing, clustering, etc. In this paper, a common word extraction algorithm has been proposed. Based on removing common words, the special position of the comprehensive literature weighted, the lexical units weighted and the penalty function of parallel structure are used to extract the keywords in the patent literature. Experimental results show when the number of the keywords ranges from 5 to 9, the presented method is much better than the baseline method, which show the feasi-ble of the proposed method.

关 键 词:专利文献 专利关键词 关键词抽取 公共词 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象