检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西北民族大学中国民族语言文字信息技术重点实验室,兰州730030 [2]北京大学中文系汉语语言学研究中心,北京100871
出 处:《计算机工程与应用》2010年第13期233-235,248,共4页Computer Engineering and Applications
基 金:国家自然科学基金No.60773052;国家教育部基金No.MZ115-78~~
摘 要:以藏语夏河话为研究对象,建立了基于三音子的藏语连续语音语料库。首先收集了10万句藏语文本语料库,并根据夏河话的实际发音,进行了国际音标转写;然后总结了夏河话的三音子音联结构形式,并用藏语文本处理平台对其组合类型和在原始文本语料库中的频度进行了详细的统计分析;最后在语音库的语料设计中综合考虑了三音子以及类三音子的覆盖率和稀疏度,设计并完成了语料抽取算法,实现了语料自动选取。By taking Tibetan Xiahe dialect as the research object,continuous speech corpus based on triphone is built.At first,text corpus with 100 thousand sentences is collected and they are transformed to IPA according to pronunciation of Xiahe dialect,and then structure of triphone juncture is summarized and combination type and frequency of triphone in Corpus are statistically analyzed with text-processing platform in detail.At last by comprehensively considering coverage rate and sparseness of triphone and class-triphone the algorithm for extraction of corpus is designed and automatic selection to corpus is realized.
分 类 号:TN912.34[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7