基于朴素贝叶斯算法的水产类专利文本分类  

Aquatic patent text categorization based on Naive Bayes algorithem

在线阅读下载全文

作  者:范秀梅[1] 张胜茂[1] 岳冬冬[1] 

机构地区:[1]中国水产科学研究院东海水产研究所,中国水产科学研究院渔业资源遥感信息技术重点开放实验室,上海200090

出  处:《渔业信息与战略》2014年第1期54-59,共6页Fishery Information & Strategy

基  金:"十二五"国家科技支撑计划项目(2013BAD13B01);上海市科学技术委员会资助项目(12511501200).

摘  要:本文选取公开日从1992年1月1日到2011年12月31日的水产类的9 894条失效专利作为数据挖掘的文本。从中选出56条专利,利用分词器对其摘要进行分词,并通过卡方检验的方法过滤掉与分类相关度比较小的词,形成词组矩阵。然后采用朴素贝叶斯的方法对这些矩阵进行训练并设计程序。使用训练过后的程序对失效专利进行分类测试,合格后再对所有的专利的摘要文本进行分类,并对分类结果进行了分析和验证。验证的结果表明该程序对文本进行分类的准确率达到了85%,达到了比较好的可信度,可以用它对文本分类。如此我们就可以把失效的水产类专利文本按照设定的类别进行归类,了解一个时间段它们的分布情况,为以后做决策提供参考。In this article,the aquatic product patents from Jan. 1,1992 to Dec. 31,2011 are selected as the data mining texts,and the total number is 9894. Firstly,56 patents are chosen,and the segmentation devices are used to segment the summary. Secondly,the words of small correlation are filtered with the category through the chi-square test. And a matrix of words is established. Thirdly,the Nave Bayes method is used to train the program according to the matrix. Fourthly,the program is tested after being trained. Lastly,after passing the test,the program is used to classify all the patent' s summaries,then to analyze and verify the results. The verification shows that the accuracy of the text classification program is 85%,Which means that we can use it to classify text. So we can categorize the lapsed aquatic patents' summaries according to the categories set by ourselves. Then we will have knowledge of the distribution of the lapsed aquatic patents in a period of time,which can provide a reference for the future decision.

关 键 词:朴素贝叶斯 文本分类 卡方检验 

分 类 号:S9-5[农业科学—水产科学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象