检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科大计算机系,合肥230027 [2]中科院计算机语言信息工程中心,北京100083
出 处:《计算机科学》2006年第1期226-228,235,共4页Computer Science
基 金:受国家自然科学基金(编号60272088)资助。
摘 要:语种识别是机器翻译等多语种语言处理任务的必要预处理过程。但双字节编码语种的识别,如中文、日文等,尚未被充分研究和试验。本文采用 Markov 语言模型,提出并测试了一种有效的基于 EM 的训练算法。同时,给出了性能分析和与其他算法的比较。Language identification is a necessary pre-process in machine translation and other muhi-language applications, but no experiments hase yet been reported on double-byte encoded languages, such as Chinese and Japanese. An efficient EM based training algorithm on Markov language model is proposed and evaluated. The performance analysis and comparison with other algorithms are also presented.
关 键 词:字符层马尔科夫模型 语种识别 机器翻译 多语种 马尔科夫模型 识别 字符 MARKOV 训练算法 预处理过程
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP391.41[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249