检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王旭阳[1] 张鹏远[1] 潘接林[1] 颜永红[1]
机构地区:[1]中国科学院声学研究所语言声学与内容理解重点实验室,北京100190
出 处:《网络新媒体技术》2014年第4期30-32,共3页Network New Media Technology
基 金:国家自然科学基金(批准号:11161140319;91120001;61271426);中国科学院战略性先导科技专项(面向感知中国的新一代信息技术研究;编号:XDA06030100;XDA06030500);国家863计划(资助号:2012AA012503);中科院重点部署项目(编号:KGZD-EW-103-2)经费资助
摘 要:针对汉语语音关键词检索任务中的集外词检索提出了一种基于局部声学信息的改进算法。在汉语语音识别和语音关键词检索任务中,由于集外词可以由词典内部的字词组合而成,因而通常认为不存在类似英文等语言中的集外词检索的问题。然而,由于数据稀疏问题,集外词在语言模型上建模不够充分,导致解码过程中难以存留下包含集外词的路径。本文根据深度神经网络在声学模型上建模的准确性,提出了在解码过程中利用令牌保存的局部声学信息以保留那些局部声学概率高而即将被剪枝掉的令牌,从而在词图中保留下来包含集外词的路径,提高集外词检索的召回率;然后再利用关键词置信度重估技术提高集外词检索的精度。实验表明,利用解码过程中的局部声学信息可以提高集外词检索的性能,召回率相对于基线系统有10%的绝对提高;在高精度区,使用置信度重估后本文提出的方法同样取得显著提高。Out of vocabulary (OOV) word detection is an important issue in spoken term detection (STD). Unlike the detection of OOV words in English, Mandarin OOV words can be composed of in - vocabulary words and are considered less influential. However, due to data scarcity, the language model probabilities for OOV words is relative low and the paths containing OOV words at the deco- ding stage cannot be preserved. In this paper, the use of integration with local acoustic information is investigated to retrieve more OOV words. Tokens with high acoustic probabilities in the search space will be forced to propagate to the next frame. In this way, acoustic similar words can be reserved in the recognition results. Experimental results show that this new approach results in 10% absolute to the baseline system and the improvement is also significant in the high precision area.
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49