领域概念术语提取中特征项自动抽取方法被引量：3

Research on feature auto-extraction in process of excavating concept terms

机构地区：[1]四川师范大学计算机科学学院,四川成都610101 [2]四川师范大学可视化计算与虚拟现实四川省重点实验室,四川成都610068

出　　处：《计算机工程与设计》2012年第8期3189-3193,共5页Computer Engineering and Design

基　　金：全国教育科学规划项目国家青年基金项目(CCA100176);四川省教育厅科研基金项目(09ZC080)

摘　　要：针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首先利用第三方接口从文献资源库中获取大量领域文本集,并对其进行段落分析,在文本预处理阶段提出一种改进的无词典分词方法进行二次分词,结合TFIDF,开方检验,信息增益及词汇位置权重方法进行特征项抽取。实验结果表明,该方法能实现特征项自动化抽取。Extracting the concept terms often has the problems of requiring lots of domain experts＇ time to manually extract feature from the domain documents, and not able to get high accuracy. An auto-extraction of feature items is proposed in this paper. Firstly, using third-party interface to capture numerous text resources and analyzing these texts. Then, an improved method of non dictionary of no word segmentation is introduced during the text preprocessing. Combing with the method of TFIDF, Evolution test, IG and the position weighting of vocabulary to capture feature. Experiments have shown the method can achieve the auto-extraction of feature and improve the accuracy of the extraction of feature.

关键词：领域概念术语特征项自动抽取领域文本集无词典分词位置权重

分类号：TP182[自动化与计算机技术—控制理论与控制工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

领域概念术语提取中特征项自动抽取方法被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

领域概念术语提取中特征项自动抽取方法 被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

领域概念术语提取中特征项自动抽取方法被引量：3