检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]大连民族学院计算机科学与工程学院,辽宁大连116600 [2]上海师范大学语言研究所上海高校比较语言学E-研究院,上海200234 [3]中国社会科学院民族学与人类学研究所语音学与计算语言学重点实验室,北京100081
出 处:《计算机应用与软件》2009年第11期46-49,94,共5页Computer Applications and Software
基 金:国家社会科学基金重点项目(02AYY001);国家自然科学基金项目(60173024);上海市教育委员会E-研究院建设规划项目(E06012)。
摘 要:E研究中学科交叉广泛存在,因此对多学科的电子文献进行自动分类非常必要。针对E研究中的电子文献特征维数较高的特点,以上海高校比较语言学E-研究院为例,提出了一种可逐层降低分类难度、分而治之的层次化自动分类方法。该方法首先利用不需要矩阵运算的几何分类算法对文本向量进行初步分类;然后,利用fisher的线性判别方法将向量投影一维特征空间;最后,在一维空间中运用NBayes决策进行平均错误率最小的文献分类。实验结果表明该分类方法具有较好的精确性和速度:在闭集测试和开集测试中,均获得了较高的分类准确率、召回率及F1值,文献分类平均耗时0.29 s。以上工作为E研究提供了智能化支持。Subjects crossing is very common in E-research, so it is necessary for documents in muhi-subjects to be classified automatically. In accordance with high dimensions of documents in these multi-subjects, a method of hierarchical automatic classification with the thought of DC (divide and conquer) is proposed and used for E-research of comparative linguistics in E-Institutes of Shanghai Universities. First, vectors of different documents are clustered by geometric classification without matrix transpose. Then, 1 -dimensional feature space is formed through Fisher linear discriminant criterion. Finally, by using NBayes decision, a MCE ( minimum classification error) decision, documents automatic classification is proceeded in an effective way. Experiment result indicates that the method is effective:both in close-set test and open-set test, it has good performance in precision,recall and F1. The classification process takes 0.29 sec on average. The above work offers some intelligent supports for E-research.
关 键 词:E研究 FISHER线性判别 NBayes决策 层次化自动分类
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38