检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]江苏省现代企业信息化应用支撑软件工程技术研究开发中心,江苏苏州215104 [2]东北林业大学信息与计算机工程学院,黑龙江哈尔滨150040
出 处:《中文信息学报》2009年第6期26-30,共5页Journal of Chinese Information Processing
基 金:江苏省现代企业信息化应用支撑软件工程技术研究开发中心资助项目(SX200907);黑龙江省博士后基金资助项目(520-415029);苏州市职业大学基金资助项目(SZD08L26);"青蓝"工程资助项目
摘 要:在目前的术语自动抽取中,双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了术语自动抽取的一个难点。该文提出了NC-value参数和互信息相结合的混合策略来识别三字以上的长术语的方法。该方法充分发挥了NC-value参数在利用词语上下文信息和互信息参数在词语结合强度两方面的优势,两者相互约束和配合,更有利于找到准确的长术语边界。采用生物信息领域Yapex语料进行实验,结果表明,三字以上长术语抽取正确率和召回率分别达到88.5%和76.6%,F测量值达到82.2%,稍高于其他方法的结果。For term recognition, the current precision of double-word term has achieved 90.36 % while the precision of multi-word term is only 66.63%. To address the issue of multi-word term recognition, this paper proposes a method of higher precision, which integrates the predominance of NC-value parameter in long term recognition with the mutual information. The experimental result shows the precision, recall and F-measure fo this method can reach 88.5%, 76.6% and 82.2%, respectively.
关 键 词:计算机应用 中文信息处理 术语抽取 NC-value 互信息
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28