双语交叉分类模型的设计与实现  

The Design and Implementation of Model for Bi-linguistic Text Categorization

在线阅读下载全文

作  者:林鸿飞[1] 王剑峰[2] 

机构地区:[1]大连理工大学计算机系,辽宁大连116024 [2]大连外国语学院计算机中心,辽宁大连116001

出  处:《中文信息学报》2001年第6期27-32,共6页Journal of Chinese Information Processing

摘  要:利用交叉分类机制共享因特网上各种语言的信息资源是知识挖掘的重要方法 ,本文给出了双语交叉分类的模型以及实现方法。其主要思想是不需要进行机器翻译和人工标注 ,利用文本特征抽取机制提取类别特征项和文本特征项 ,通过基于概念扩充的对译映射规则自动生成类别和文本特征向量 ,在此基础上利用潜在语义分析 ,将双语文本在语义层面上统一起来 ,通过类别与文本的语义相似度进行分类。It is essential to knowledge discovery that multi linguistic text categorization is applied to share the information sources in the Internet.The model for bi linguistic text categorization is presented in this paper.It utilizes the mechanism of text feature extraction to extract the features of classes and texts,and it generates the feature vectors of classes and texts by the rule of word translation based on concept expansion. As a result,it uses Latent Semantic Indexing to integrate the bi linguistic texts on the semantic layer,and it calculates the semantic similarity between texts and classes to classify the texts.It can make high categorization precision,and it is independent of machine translation and manual tagging.

关 键 词:双语交叉文本分类 概念扩充 潜在语义分析 空间向量模型 知识挖掘 语义相似度 文本特征抽取机制 

分 类 号:TP391.12[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象