检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:贺瑞芳[1] 秦兵[1] 刘挺[1] 潘越群[1] 李生[1]
机构地区:[1]哈尔滨工业大学信息检索研究室,黑龙江哈尔滨150001
出 处:《中文信息学报》2007年第5期36-40,共5页Journal of Chinese Information Processing
基 金:国家自然科学基金资助项目(60575042)
摘 要:时间表达式识别是进行时间表达式归一化的基础,其识别结果的好坏直接影响归一化的效果。本文提出一种基于依存分析和错误驱动识别中文时间表达式的新方法。首先以时间触发词为切入点,据依存关系递归地识别时间表达式,大大地提高了识别效果;然后,采用错误驱动学习来进一步增强识别效果,根据错误识别结果和人工标注的差异自动地获取和改进规则,使系统的性能又提高了近3.5%。最终在封闭测试集和开放测试集上,F1值达到了76.38%和76.57%。Recognizing time expressions is the foundation of its normalization, and its performance directly influences the robustness of the normalization. This paper proposes a new method for recognizing the extents of the time expressions based on dependency parsing and error-driven learning, which begins with time trigger word (namely, the syntactic head of dependency relation), uses Chinese dependency parsing to recognize the extents of the time expressions, Subsequently, we use the transformation based error-driven learning to improve the performance., which can automatically acquire and modify the rules and get 3.5 % increase after applying the learned rules. Finally, F1 = 76. 38% and F1 -76.57% results are obtained on the closed and the open test set respectively.
关 键 词:计算机应用 中文信息处理 时间表达式识别 触发词 依存分析 错误驱动学习
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249