检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京理工大学经济管理学院信息管理系,江苏南京210094
出 处:《情报理论与实践》2014年第2期122-126,共5页Information Studies:Theory & Application
基 金:国家社会科学基金重大项目"基于语义的馆藏资源深度聚合与可视化展示研究"(项目编号:11&ZD152);总装技术基础研究课题"领域知识获取方法及应用研究"(项目编号:G20121QB05)的成果
摘 要:文章提出一种基于N-gram复合分词的领域概念自动获取方法,在中文分词的基础上进行N元复合切分,通过建立一系列过滤规则,提取候选领域概念;然后以改进的TF-IDF作为衡量领域相关性的统计特征值,计算候选概念的领域相关性;最后进行人工辅助判断与筛选。以航空发动机领域语料为样本进行了实践探索,实验结果表明该方法能有效抽取专业领域概念,具有较强的实用性。This paper presents a method to acquire domain concepts automatically based on N-gram composite word segmenta- tion, which implements N-element composite word segmentation on the basis of Chinese word segmentation, and extracts the candi- date domain concepts by establishing a series of filtering rules. Then, an improved TF-IDF is used as a statistical feature value for the measurement of domain relevance to calculate the domain relevance of candidate concepts. Finally, the artificial auxiliary judg- ment and filtering will be taken. The paper carries out a practical exploration with the corpus in the aero engine field as the sample, and the experimental results show that this method can effectively extract the concepts in the professional domain and has stronger practicability.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15