检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]清华大学精密仪器与机械学系,北京100084
出 处:《清华大学学报(自然科学版)》2002年第6期787-790,共4页Journal of Tsinghua University(Science and Technology)
基 金:国家"九七三"重点基础研究项目 ( G19990 330 )
摘 要:为了解决期刊电子化的自动分类问题 ,提出了一种基于中文学术期刊人工标引的自动分类算法。这种算法主要利用自动分词得到各文献的特征词向量空间 ,并考虑到人工标引在分类中的关键作用 ,得到综合了特征词 TF和 IDF权重的分类准则。通过适当训练建立分类库 ,计算待分类样本与已知分类的相似性 ,判别各分类。实验表明 :该分类算法可以获得 85A new literature categorization method based on the manual labeling in Chinese academic journals is introduced to solve the text categorization problem for electronic journal data processing. In this method, the term vector space of text is described by automatic word segmentation. A categorization rule integrates both the term frequency and the inverse document frequency weights by considering the key effect of the manual labeling. The class expert database is built through sample training and the similarity between the known class and the text to be categorized can be computed to determine the text class. Experiments show that the recognition rate of this method is about 85%.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49