检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]四川师范大学计算机科学学院,四川成都610101 [2]四川师范大学可视化计算与虚拟现实四川省重点实验室,四川成都610068
出 处:《计算机工程与设计》2012年第8期3189-3193,共5页Computer Engineering and Design
基 金:全国教育科学规划项目国家青年基金项目(CCA100176);四川省教育厅科研基金项目(09ZC080)
摘 要:针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首先利用第三方接口从文献资源库中获取大量领域文本集,并对其进行段落分析,在文本预处理阶段提出一种改进的无词典分词方法进行二次分词,结合TFIDF,开方检验,信息增益及词汇位置权重方法进行特征项抽取。实验结果表明,该方法能实现特征项自动化抽取。Extracting the concept terms often has the problems of requiring lots of domain experts' time to manually extract feature from the domain documents, and not able to get high accuracy. An auto-extraction of feature items is proposed in this paper. Firstly, using third-party interface to capture numerous text resources and analyzing these texts. Then, an improved method of non dictionary of no word segmentation is introduced during the text preprocessing. Combing with the method of TFIDF, Evolution test, IG and the position weighting of vocabulary to capture feature. Experiments have shown the method can achieve the auto-extraction of feature and improve the accuracy of the extraction of feature.
关 键 词:领域概念术语 特征项自动抽取 领域文本集 无词典分词 位置权重
分 类 号:TP182[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.85