检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘汇丹[1] 洪锦玲[1] 诺明花[1] 吴健[1]
出 处:《中文信息学报》2017年第2期61-70,共10页Journal of Chinese Information Processing
基 金:国家自然科学基金(61202219;61303165);中国科学院信息化专项(XXH12504-1-10);新闻出版重大科技工程(0610-1041BJNF 2328/23)
摘 要:针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的。文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因:一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。A large scale Tibetan text corpus is built, which includes 4.27 million sentences in 190 thousand documents, totaling 93 million syUables. Some predefined rules are applied to check whether there are spelling errors, detecting altogether 9 700 misspelt syllable types out of the 20 743 types of Tibetan syllables occurred in the corpus (covering 46. 762 8%). But at the token level, the corpus has a very high quality, with only 27 427 misspelt syllables, roughly 0. 030 8% of the total 93 million syllable tokens. Further analysis shows that there are mainly four causes leading to those spell errors., extra vowel sign(s) ; absence of syllable delimiter or sentence delimiter; characters which can be written in different forms; similar characters.
关 键 词:藏文拼写检查 拼写检查 语料 统计 藏文信息处理 中文信息处理
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.13