检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]清华大学计算机系,北京100084 [2]搜狗科技公司,北京100084
出 处:《中文信息学报》2013年第5期22-28,共7页Journal of Chinese Information Processing
基 金:国家自然科学基金重点资助项目(61133012);国家863计划资助项目(2012AA011102)
摘 要:方言研究领域中的语音研究、词汇研究及语法研究是方言研究的三个重要组成部分,如何识别方言词汇,是方言词汇研究首要的环节。目前,汉语方言词汇研究的语料收集与整理主要通过专家人工整理的形式进行,耗时耗力。随着信息技术的发展,人们的交流广泛通过网络进行,而输入法数据包含海量的语料资源以及地域信息,可以帮助进行方言词汇语料的自动发现。然而,目前尚没有文献研究如何利用拼音输入法数据对方言词汇进行系统化分析,因此在本文中,我们探讨借助中文输入法的用户行为来自动发现各地域方言词汇的方法。特别的,我们归纳得到输入法数据中表征方言词汇的两类特征,并基于对特征的不同组合识别方言词汇。最后我们通过实验评价了两类特征的不同组合方法对方言词汇识别效果的影响。The study of dialect is composed of voice study,vocabulary study and grammar study,of which the first step is to recognize the dialect vocabulary.By now,collection of Chinese idiom words is mainly accomplished by experts,and it is time-consuming and labor-intensive.With the development of information technology,people communicate widely through the network,and thus input method data contains vast amount of vocabulary resources as well as the geographical information,which can help automatically discover dialect words corpus.However,in literature,there have been very few studies on how to exploit the input method data to systematically investigate the dialects.Therefore this paper analyzes the user behavior of Chinese input method,and based on which we propose to automatically discover the geographical dialect vocabulary.Specifically,the paper gets the two representative features of dialects in Chinese input method,and uses different combinations of these two features to recognize dialect words.Finally,extensive experiments are performed to evaluate the impacts of the feature combinations on the dialect word recognition.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.171