检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中科院自动化所模式识别实验室
出 处:《中文信息学报》1998年第1期35-41,共7页Journal of Chinese Information Processing
基 金:国家自然科学基金
摘 要:N元语言模型(n-gram)作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等)中已得到广泛的应用。但是,具体N取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发,综合比较和分析了基于汉语词的N元语言模型中N值的选择。并得出结论:对于基于真实词的汉语N元语言模型,N的取值范围应介于3至6之间,且N=4为较优。这一结论将有助于汉语统计语言处理的发展。Abstract As a major statistical model,n gram has been applied extensively in the process of language processing (such as POS tagging,language modeling of speech recognition,character recognition,etc.).However,there is no definitive conclusion what N value will be optimal for Chinese language processing until now.This paper introduces a kind of estimation for the selection of parameter N in n gram model in Chinese language. Three factors has been analyzed for comparing different N value. These are the approximate expression for Chinese grammatical structure,reconstruction of new words,and the performance for the transcription of Chinese Pinyin sequence to text. Finally, a conclusion was obtained that 4 is a better selection of parameter N value for n gram model based on words in Chinese language. It will be helpful for the development of Chinese statistical language model and language processing.
分 类 号:TP391.42[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.211