基于专利搜索日志的同义词挖掘  被引量:1

Synonyms mining based on patent search log

在线阅读下载全文

作  者:王颖[1] 都云程[1] 卢献华[1] 吕学强[1] 

机构地区:[1]北京信息科技大学中文信息处理研究中心,北京100101

出  处:《计算机工程与设计》2013年第3期1029-1033,共5页Computer Engineering and Design

基  金:国家自然科学基金项目(61171159);北京市科学技术研究院科技创新工程基金项目(PXM2012_178215_000004);北京市教委科技发展计划基金项目(KM201211232023);国家科技支撑计划课题基金项目(2011BAH11B03);核高基基金项目(2010ZX01042-002-002)

摘  要:针对专利搜索日志中同义词出现的特点,改进了词共现相似度算法,提出了一种基于专利搜索日志的同义词挖掘方法。利用专利搜索日志中同义词出现的规律挖掘同义词集的结构模板,根据这些模板抽取出候选同义词集,利用改进的词共现方法计算词汇相似度。对称共现的词对正确率达到85.66%,召回率达到78.98%,F值0.82。该方法可用于专利搜索引擎中提高专利检索的效率。According the characteristics of synonyms appearing in patent search log, the algorithm of word simila rity is improved and a new measure of synonyms mining is put forward on the basis of patent search log. The rule of synonyms in patent search log is utilized to mine the structure templates of synonyms sets, and the candidate synonyms sets are extracted on the basis of these templates. The similarity with the measure of improved word cooccurrence is figured out, if the similarity is greater than some threshold, regards the words as the synonyms. The precision of symmetric cooccurrence words is 85.66%, Recall rate is 78. 98%, F is 0.82. This measure can be used on the patent search engine to improve the efficiency of patent search.

关 键 词:专利搜索日志 同义词挖掘 结构模板 候选同义词集 词共现相似度 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象