特征词提取中同义处理的新方法  被引量:10

A New Method for Synonymous Processing in Feature Word Extraction of Text Categorization

在线阅读下载全文

作  者:邹娟[1] 周经野[1] 邓成[1] 高南莎[2] 

机构地区:[1]湘潭大学信息工程学院,湖南湘潭411105 [2]东南大学软件学院,江苏南京210000

出  处:《中文信息学报》2005年第6期44-49,共6页Journal of Chinese Information Processing

基  金:湖南省自然科学基金资助项目(02JJY2092)

摘  要:本文利用文本分类中文本的特点提出了一种基于模糊集的同义词处理的新方法。本方法充分考虑不同文本类型中同义(近义)词之间的差别,在训练中自动计算不同类型文本中特征词对其对应的同义概念的隶属度,从而实现了用模糊集来定义同义概念;然后应用同义概念来提取文本中的特征值。另外,本系统还利用模糊集来处理多义词的问题。文中给出了系统的处理算法。比较试验的结果表明该方法提高了分类的正确率,效果是令人满意的。整个系统达到了较高的自动化水平和较强的可移植性。A new method for synonymous processing in feature word extraction of text categorization is proposed in this paper. Fully considering the difference among synonyms in texts of different types, this method can calculate the membership degrees of feature words in their common synonymous concept automatically while training, so that we can define synonymous concepts with rough sets. Then we use synonymous concepts to extract feature values in texts. In addition, we process the polysemous problem using rough sets. The algorithms of the system are presented in the paper. And the results of the comparing tests show that our method improve the correct rates of text categorization effectively and the system is more automatic and mere portable.

关 键 词:人工智图 自然语言处理 文本分类 特征值提取 同义词 特征词 提取 自动化水平 模糊集 自动计算 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] H17[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象