检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:赵永贞[1,2] 刘挺[1,2] 王志伟[1,2] 陈惠鹏[1,2] 邵艳秋[1,2]
机构地区:[1]哈尔滨工业大学计算机学院信息检索研究室,黑龙江哈尔滨150001 [2]哈尔滨工业大学计算机学院语音处理研究室,黑龙江哈尔滨150001
出 处:《中文信息学报》2004年第5期48-55,共8页Journal of Chinese Information Processing
基 金:国家自然科学基金资助项目 (6 0 2 0 30 2 0 )
摘 要:本文采用了一个基于C TOBI的停顿指数标注的语料库 ,利用有指导的学习方法对自动停顿指数标注方面做了一些有益的探索。本文共实现了三种方法 :基本的马尔科夫模型 ,引入了词长信息的马尔科夫模型 ,引入词长信息的马尔科夫模型结合基于转换的错误驱动的学习方法。然后通过对 30 0 0句的真实文本进行开放测试 ,以基本的马尔科夫模型的结果作为基准 ,实验结果不断改进 ,最终达到了 78 6 %的准确率 ,错误代价降低了 14 5 %This paper uses a corpus with break indices based on C-TOBI. Applying supervised learning method, some useful attempts are made in the field of automatic break indices intonation. Three approaches, namely, the basic Markov model approach, the Markov model using word length approach, and the Markov model using word length combining transformation-based error-driven learning approach, are presented. After implementing these three approaches, open tests are made on a corpus of 3,000 sentences. The performances are getting better and the last approach produces the highest accuracy, 78.5%, and results in 14.5% decrease in error-cost taking the result of Markov model as baseline.
关 键 词:计算机应用 中文信息处理 文语转换 停顿指数 马尔科夫模型 基于转换的错误驱动的学习
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.40