检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:林小俊[1] 张猛[1] 暴筱[1] 李军[2] 吴玺宏[1]
机构地区:[1]北京大学机器感知与智能教育部重点实验室,北京100871 [2]北京市朝阳区档案局,北京100020
出 处:《计算机工程》2010年第21期4-6,共3页Computer Engineering
基 金:国家自然科学基金资助项目(60535030;60605016);国家"863"计划基金资助项目(2006AA012196);北京市档案科技基金资助项目(2009-13)
摘 要:针对档案领域的短文本分类,设计一种基于概念网络的自动分类方法。通过分析领域内短文本的语言特点构建领域本体,利用自然语言处理技术将短文本转化为资源描述框架表示的结构化概念网络,在此基础上定义概念网络间的语义相似度,从而实现档案的自动分类。实验结果表明,相比传统基于特征选择的短文本分类方法,该方法的分类错误率下降了24.2%,可有效改善系统性能。Aiming at the short-text classification in archive domain, this paper designs an automatic classification method based on concept network. It constructs domain ontology by analyzing the short-text language characteristic in domain, and converts the short-text of title to structural concept network which expresses through Resource Description Framework(RDF) by means of natural language processing technology. On that basis, it defines a similarity measure for archives to classify the retention period of archives. Experimental results show that this method gets a relative 24.2% decrease in classification error rate, and it improves the system pertbrmance compared with traditional short-text classification method based on characteristic selection.
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.46