基于字词重复模式及错字率的中文词组语料校对策略  

Chinese Phrases Corpus Proofreading Strategies Based On Words Repeat Patterns and Typo Rate

在线阅读下载全文

作  者:王云[1] 杨存榜[1] 陈红素[1] 

机构地区:[1]中国工程物理研究院激光聚变研究中心信息管理中心,四川绵阳621900

出  处:《教学与科技》2014年第4期38-42,共5页Teaching and Science Technology

摘  要:经过统计发现在中文词组语料中具有字词重复特性的词组具有较高的错字率。对词组的字训重复模式进行了分类统计,统计了不同重复模式的出错率。了解到高错字率的重复模式。比如重复字词出现在词组尾部,或者出现连续性重复,则出错概率较大。基于字词重复模式的出错率数据,推荐了两种对人肌模词组语料进行人工校对的优化策略。Statistics found that in the Chinese phrase corpus, phrase having repeated words has a high typo rate. The patterns of words repeat are classified, which indicated the error rates of different repeat patterns classified statistics. And according to the data, we learnt the repeat patterns which has those high error rates. If the repeated word appears in the phrase tail, or if there is a continuous repetition, the error probability will be higher. This paper recommend two large-scale artificial optimization strategies of proofreading the phrase corpus, based on the data of typo rate of words repeat patterns.

关 键 词:中文词组语料 校对策略 字词重复模式 错字率 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象