E研究中电子文献的层次化自动分类方法  被引量:1

A METHOD OF HIERARCHICAL DOCUMENT AUTOMATIC CLASSIFICATION IN E-RESEARCH

在线阅读下载全文

作  者:云健[1,2] 江荻[2,3] 潘悟云[2] 

机构地区:[1]大连民族学院计算机科学与工程学院,辽宁大连116600 [2]上海师范大学语言研究所上海高校比较语言学E-研究院,上海200234 [3]中国社会科学院民族学与人类学研究所语音学与计算语言学重点实验室,北京100081

出  处:《计算机应用与软件》2009年第11期46-49,94,共5页Computer Applications and Software

基  金:国家社会科学基金重点项目(02AYY001);国家自然科学基金项目(60173024);上海市教育委员会E-研究院建设规划项目(E06012)。

摘  要:E研究中学科交叉广泛存在,因此对多学科的电子文献进行自动分类非常必要。针对E研究中的电子文献特征维数较高的特点,以上海高校比较语言学E-研究院为例,提出了一种可逐层降低分类难度、分而治之的层次化自动分类方法。该方法首先利用不需要矩阵运算的几何分类算法对文本向量进行初步分类;然后,利用fisher的线性判别方法将向量投影一维特征空间;最后,在一维空间中运用NBayes决策进行平均错误率最小的文献分类。实验结果表明该分类方法具有较好的精确性和速度:在闭集测试和开集测试中,均获得了较高的分类准确率、召回率及F1值,文献分类平均耗时0.29 s。以上工作为E研究提供了智能化支持。Subjects crossing is very common in E-research, so it is necessary for documents in muhi-subjects to be classified automatically. In accordance with high dimensions of documents in these multi-subjects, a method of hierarchical automatic classification with the thought of DC (divide and conquer) is proposed and used for E-research of comparative linguistics in E-Institutes of Shanghai Universities. First, vectors of different documents are clustered by geometric classification without matrix transpose. Then, 1 -dimensional feature space is formed through Fisher linear discriminant criterion. Finally, by using NBayes decision, a MCE ( minimum classification error) decision, documents automatic classification is proceeded in an effective way. Experiment result indicates that the method is effective:both in close-set test and open-set test, it has good performance in precision,recall and F1. The classification process takes 0.29 sec on average. The above work offers some intelligent supports for E-research.

关 键 词:E研究 FISHER线性判别 NBayes决策 层次化自动分类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] G255.75[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象