检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:冯元勇[1] 孙乐[1] 李文波[1] 张大鲲[1]
出 处:《中文信息学报》2008年第1期104-110,共7页Journal of Chinese Information Processing
基 金:国家自然科学基金资助项目(60773027,60736044);国家863计划重点资助项目(2006AA010108);国家242计划资助项目(2006A40);国家语委资助项目(MZ115-021)
摘 要:近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。Conditional Random Fields (CRF) model becomes prevalent for sequential labeling tasks in the field of NLP. A general but slow optimization algorithm L-BFGS is commonly used in parameter estimation of CRF Model. In this paper, an improved algorithm is proposed to train CRF model more quickly. First, small scale character hint features are introduced to decrease the feature space. Then, a task-specific rule is applied to reduce search paths in Viterbi and Baum-Welch procedure. The experiments on China 863 program NER and SIGHAN 2006 corpora show that our schema saves training time significantly without performance drop.
关 键 词:计算机应用 中文信息处理 中文命名实体识别 条件随机场 自然语言处理 机器学习
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222