基于N-gram复合分词的领域概念自动获取方法研究  被引量:5

Research on Automatic Acquisition Method of Domain Concepts Based on N-Gram Composite Word Segmentation

在线阅读下载全文

作  者:颜端武[1] 李兰彬[1] 曲美娟 

机构地区:[1]南京理工大学经济管理学院信息管理系,江苏南京210094

出  处:《情报理论与实践》2014年第2期122-126,共5页Information Studies:Theory & Application

基  金:国家社会科学基金重大项目"基于语义的馆藏资源深度聚合与可视化展示研究"(项目编号:11&ZD152);总装技术基础研究课题"领域知识获取方法及应用研究"(项目编号:G20121QB05)的成果

摘  要:文章提出一种基于N-gram复合分词的领域概念自动获取方法,在中文分词的基础上进行N元复合切分,通过建立一系列过滤规则,提取候选领域概念;然后以改进的TF-IDF作为衡量领域相关性的统计特征值,计算候选概念的领域相关性;最后进行人工辅助判断与筛选。以航空发动机领域语料为样本进行了实践探索,实验结果表明该方法能有效抽取专业领域概念,具有较强的实用性。This paper presents a method to acquire domain concepts automatically based on N-gram composite word segmenta- tion, which implements N-element composite word segmentation on the basis of Chinese word segmentation, and extracts the candi- date domain concepts by establishing a series of filtering rules. Then, an improved TF-IDF is used as a statistical feature value for the measurement of domain relevance to calculate the domain relevance of candidate concepts. Finally, the artificial auxiliary judg- ment and filtering will be taken. The paper carries out a practical exploration with the corpus in the aero engine field as the sample, and the experimental results show that this method can effectively extract the concepts in the professional domain and has stronger practicability.

关 键 词:概念 概念抽取 复合分词 领域相关性 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象