检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]延边大学工学院计算机科学与技术学科智能信息处理研究室,吉林延吉133002
出 处:《中文信息学报》2008年第5期121-128,共8页Journal of Chinese Information Processing
基 金:国家自然科学基金资助项目(69362001)
摘 要:该文研究了线性化朝鲜文字重构过程中存在的固有的歧义性问题,并讨论了歧义性消除方案。首先,研究了描述朝鲜文字结构的形式化方法,给出朝鲜文字组成的基本规则和相应的有限状态自动机;其次,给出文字线性化与重构的数学描述,论证了文字重构时存在歧义性的必要条件和充分条件,并分析了线性化文字序列歧义度的本质和歧义性发生的概率;最后,讨论了文字重构歧义性消除的方案,给出了基于基本字母的在线式朝鲜文字序列输入算法和核心步骤,通过仿真实验验证了该方案的可靠性和有效性。In this paper, the intrinsic ambiguity of linear reconstruction of Korean characters is studied and a scheme for eliminating such ambiguities is proposed., Firstly, the formal description methods for the structure of Korean characters are investigated, illustrating the basic combination rules of Korean characters and establishing a corresponding definite state automaton. Furthermore, the mathematical descriptions for linear reconstruction of Korean characters are presented. The necessary and sufficient conditions of the ambiguity in reconstructing Korean characters are proved, and the essence of the degree of ambiguity and the probability of the ambiguity are analyzed. Finally, a disambiguation approach is suggested for character reconstruction and the cardinal-grapheme-based on-line Korean character string input algorithm is proposed. The results of simulation experiments show the reliability and validity of proposed method.
关 键 词:计算机应用 中文信息处理 朝鲜文字 线性化文字序列 文字重构 文字序列歧义性
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222