领域本体术语的抽取方法研究  被引量:8

Research on Extraction Methods for Domain Ontology Terminology

在线阅读下载全文

作  者:张雷瀚[1] 吕学强[1] 李卓[1] 徐丽萍[2] 

机构地区:[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101 [2]北京城市系统工程研究中心,北京100044

出  处:《情报学报》2014年第2期167-174,共8页Journal of the China Society for Scientific and Technical Information

基  金:国家自然科学基金项目(项目编号:61271304);北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(项目编号:KZ201311232037)资助

摘  要:领域术语是本体构建的基本要素,自动获取高质量的领域术语是构建领域本体的基础。本文提出一种多策略融合的领域术语抽取方法。分析领域术语的语法结构及统计特征,构造术语抽取的逆向词性规则和领域专用停用词表;利用PATTree术语抽取模型和C-value方法获取候选术语;借鉴TF—IDF及参照语料对比思想,从单个文档和领域文档集两个层面计算术语领域度,并依据术语领域度的大小筛选得到领域术语。在经济类语料上的实验结果显示:领域术语的top-100、top-500和top-1500准确率分别达到了94.00%、85.20%和78.47%,与baseline相比,分别提高5%、4.8%和6.2%。Domain terminology with high quality are the fundamental component in ontology construction and domain terminology automatic extraction is the basis of domain ontology construction. The paper proposed a multiple-strategy integration approach to extract domain terminology. Through analyzing the grammatical structures and statistical features of domain ontology terminology, the reverse speech rules and domain-specific stop words list were built. Then, we extracted the candidate terminologies using the PATTree model and the C-value method. Consulting the thought of TF-IDF and reference corpus comparison, terminology domain relevance degree was computed on the two levels of single document and document set. Experimental results on the economical corpus suggest that the top-lO0, top-500 and top-1500 precise of domain terminologies reach at 94.00% , 85.20% and 78.47% , which improved by 5% , 4.8% and 6.2% respectively comparing with the baseline.

关 键 词:本体构建 术语抽取 逆向词性规则 参照语料 术语领域度 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象