基于人工标引的中文学术期刊文献自动分类算法  被引量:7

Literature automatic categorization of Chinese academic journals based on the manual labeling

在线阅读下载全文

作  者:王洪[1] 贾惠波[1] 徐端颐[1] 

机构地区:[1]清华大学精密仪器与机械学系,北京100084

出  处:《清华大学学报(自然科学版)》2002年第6期787-790,共4页Journal of Tsinghua University(Science and Technology)

基  金:国家"九七三"重点基础研究项目 ( G19990 330 )

摘  要:为了解决期刊电子化的自动分类问题 ,提出了一种基于中文学术期刊人工标引的自动分类算法。这种算法主要利用自动分词得到各文献的特征词向量空间 ,并考虑到人工标引在分类中的关键作用 ,得到综合了特征词 TF和 IDF权重的分类准则。通过适当训练建立分类库 ,计算待分类样本与已知分类的相似性 ,判别各分类。实验表明 :该分类算法可以获得 85A new literature categorization method based on the manual labeling in Chinese academic journals is introduced to solve the text categorization problem for electronic journal data processing. In this method, the term vector space of text is described by automatic word segmentation. A categorization rule integrates both the term frequency and the inverse document frequency weights by considering the key effect of the manual labeling. The class expert database is built through sample training and the similarity between the known class and the text to be categorized can be computed to determine the text class. Experiments show that the recognition rate of this method is about 85%.

关 键 词:人工标引 中文学术期刊 文献 自动分类算法 特征词向量空间 

分 类 号:G254.11[文化科学—图书馆学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象