一种基于关键重复语义的最大熵文本分类  被引量:2

Maximum Entropy Text Classification Based on Key Duplication Semantic

在线阅读下载全文

作  者:屈志毅[1] 李一伟[1] 张延堂[1] 杨曙光[1] 张菲菲[1] 

机构地区:[1]兰州大学信息科学与工程学院,甘肃兰州730000

出  处:《广西师范大学学报(自然科学版)》2007年第4期204-207,共4页Journal of Guangxi Normal University:Natural Science Edition

基  金:国家科技部科技基础性工作专项基金资助项目(2005DKA31700)

摘  要:文本分类做为Web文本挖掘的重要手段和搜索引擎的重要组成部分而被广泛研究。现有的分类系统大都依赖于中文分词,尽管达到分类目的,但随着Web文档数量的增加和网络新词汇的不断出现,面临着特征维数急遽增高带来的时空开销问题,严重影响了系统的性能。在此抛开中文分词而尝试使用基于关键子串的特征提取并结合最大熵模型给出了一种分类系统的实现。实验表明,与现有的分类系统相比,具有较好的问题求解效率和适应性。Text classification as an important means of web search engine and text Mining was studied extensively. Most of the existing classification systems depend on the Chinese word segmentation. But with the increase in the number of web documents and continual emergence of new internet terms, the sharply increase in characteristic dimensions have serious impact on the system performance. This paper presents a new system based on the combination of key elements series of feature extraction and a maxi- mum entropy model classification. The experiment shows that the system has better problem solving efficiency and adaptability.

关 键 词:文本挖掘 文本分类 最大熵模型 特征提取 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象