检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:邬桐[1] 周雅倩[1] 黄萱菁[1] 吴立德[1]
机构地区:[1]复旦大学计算机科学技术学院,上海200433
出 处:《中文信息学报》2010年第4期3-10,共8页Journal of Chinese Information Processing
基 金:国家自然科学基金资助项目(60503070)
摘 要:该文提出一种基于正则文法的时间表达式识别算法:它基于"时间基元"①进行规则构建,提高了时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,削减了从训练语料带来的噪声,提高了识别的正确率,两者搭配有效提高了系统整体性能。在ACE07中文语料上的实验结果显著超过了现有水平,F-score达到89.9%。该文提出的算法具有很好的通用性和扩展性,加以改进将可以有更广泛的应用。This paper proposes a generic algorithm for Time Expression Recognition(TER) task based on regular expressions.The algorithm generates rules based on "Basic Time Unit",which improves the recall value.And it prunes the rule collection through error driven method and reduces the "noise" taken from training corpus,which leads to a high precision.The two features jointlyimprove the overall efficiency of our method compared to the baseline system: with a significant better performance of up to 89.9% F-score on ACE07 Chinese Corpus.In addition,the proposed algorithm has good adaptablility and scalability for a broader application.
关 键 词:计算机应用 中文信息处理 时间表达式识别 时间基元 Timex2 错误驱动 正则表达式
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.119.142.123