一种基于关键重复语义的最大熵文本分类被引量：2

Maximum Entropy Text Classification Based on Key Duplication Semantic

作　　者：屈志毅[1] 李一伟[1] 张延堂[1] 杨曙光[1] 张菲菲[1]

出　　处：《广西师范大学学报（自然科学版）》2007年第4期204-207,共4页Journal of Guangxi Normal University:Natural Science Edition

基　　金：国家科技部科技基础性工作专项基金资助项目(2005DKA31700)

摘　　要：文本分类做为Web文本挖掘的重要手段和搜索引擎的重要组成部分而被广泛研究。现有的分类系统大都依赖于中文分词,尽管达到分类目的,但随着Web文档数量的增加和网络新词汇的不断出现,面临着特征维数急遽增高带来的时空开销问题,严重影响了系统的性能。在此抛开中文分词而尝试使用基于关键子串的特征提取并结合最大熵模型给出了一种分类系统的实现。实验表明,与现有的分类系统相比,具有较好的问题求解效率和适应性。Text classification as an important means of web search engine and text Mining was studied extensively. Most of the existing classification systems depend on the Chinese word segmentation. But with the increase in the number of web documents and continual emergence of new internet terms, the sharply increase in characteristic dimensions have serious impact on the system performance. This paper presents a new system based on the combination of key elements series of feature extraction and a maxi- mum entropy model classification. The experiment shows that the system has better problem solving efficiency and adaptability.

关键词：文本挖掘文本分类最大熵模型特征提取

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于关键重复语义的最大熵文本分类被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于关键重复语义的最大熵文本分类 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

一种基于关键重复语义的最大熵文本分类被引量：2