检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101 [2]北京城市系统工程研究中心,北京100089
出 处:《现代图书情报技术》2015年第10期88-94,共7页New Technology of Library and Information Service
基 金:国家自然科学基金项目"基于本体的专利自动标引研究"(项目编号:61271304);北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目"面向领域的互联网多模态信息精准搜索方法研究"(项目编号:KZ201311232037);北京市科学技术研究院科技创新工程项目"基于CGE-TIMES模型的交通对大气环境综合影响评价方法研究"(项目编号:PXM2015_178215_000008)的研究成果之一
摘 要:【目的】为提高新能源汽车领域中文术语抽取结果的准确率和召回率,提出一种适合该领域的术语抽取方法。【方法】在总结前人工作基础上,提出利用条件随机场模型作为抽取模型,选取词、词长、词性、依存关系、词典位置、停用词等特征作为特征模板。【结果】实验结果正确率为93.12%,召回率为90.47%。正确率比Baseline方法提高7.73%。【局限】该方法只提高较短术语抽取结果的正确率。【结论】依存关系作为条件随机场模型的一项特征可以提高新能源汽车领域中文术语抽取结果的正确率和召回率。[Objective] The problem of Chinese term extraction in new energy vehicles domain is a key problem which needs a special method to improve the precision and recall rate. [Methods] This paper uses conditional random fields model as extraction model, select the word, word length, part of speech, dependencies, dictionary location, stop words and other characteristics as the feature templates. [Results] Experimental results show that the precision and recall are 93.12% and 90.47% respectively. This method improves the performance by 7.73% when compared with the baseline in terms of accuracy. [Limitations] This method can only improve part of the accuracy of the results. [Conclusions] Dependency as one of the conditional random fields mode/ features can improve the precision and recall rate in new energy vehicles domain.
关 键 词:术语抽取 新能源汽车领域 条件随机场 依存句法关系
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229