检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:屈志毅[1] 李一伟[1] 张延堂[1] 杨曙光[1] 张菲菲[1]
机构地区:[1]兰州大学信息科学与工程学院,甘肃兰州730000
出 处:《广西师范大学学报(自然科学版)》2007年第4期204-207,共4页Journal of Guangxi Normal University:Natural Science Edition
基 金:国家科技部科技基础性工作专项基金资助项目(2005DKA31700)
摘 要:文本分类做为Web文本挖掘的重要手段和搜索引擎的重要组成部分而被广泛研究。现有的分类系统大都依赖于中文分词,尽管达到分类目的,但随着Web文档数量的增加和网络新词汇的不断出现,面临着特征维数急遽增高带来的时空开销问题,严重影响了系统的性能。在此抛开中文分词而尝试使用基于关键子串的特征提取并结合最大熵模型给出了一种分类系统的实现。实验表明,与现有的分类系统相比,具有较好的问题求解效率和适应性。Text classification as an important means of web search engine and text Mining was studied extensively. Most of the existing classification systems depend on the Chinese word segmentation. But with the increase in the number of web documents and continual emergence of new internet terms, the sharply increase in characteristic dimensions have serious impact on the system performance. This paper presents a new system based on the combination of key elements series of feature extraction and a maxi- mum entropy model classification. The experiment shows that the system has better problem solving efficiency and adaptability.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117