检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国工程物理研究院激光聚变研究中心信息管理中心,四川绵阳621900
出 处:《教学与科技》2014年第4期38-42,共5页Teaching and Science Technology
摘 要:经过统计发现在中文词组语料中具有字词重复特性的词组具有较高的错字率。对词组的字训重复模式进行了分类统计,统计了不同重复模式的出错率。了解到高错字率的重复模式。比如重复字词出现在词组尾部,或者出现连续性重复,则出错概率较大。基于字词重复模式的出错率数据,推荐了两种对人肌模词组语料进行人工校对的优化策略。Statistics found that in the Chinese phrase corpus, phrase having repeated words has a high typo rate. The patterns of words repeat are classified, which indicated the error rates of different repeat patterns classified statistics. And according to the data, we learnt the repeat patterns which has those high error rates. If the repeated word appears in the phrase tail, or if there is a continuous repetition, the error probability will be higher. This paper recommend two large-scale artificial optimization strategies of proofreading the phrase corpus, based on the data of typo rate of words repeat patterns.
分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222