检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李新洁 王文君 董凌[1,2] 赖华 余正涛[1,2] 高盛祥[1,2] LI Xin-jie;WANG Wen-jun;DONG Ling;LAI Hua;YU Zheng-tao;GAO Sheng-xiang(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500;Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming 650500,China)
机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500 [2]昆明理工大学云南省人工智能重点实验室,云南昆明650500
出 处:《计算机工程与科学》2024年第5期937-944,共8页Computer Engineering & Science
基 金:国家自然科学基金(62376111,U23A20388,U21B2027,62366027);云南省重点研发计划(202303AP140008,202302AD080003,202401BC070021,202103AA080015);云南省科技人才与平台计划(202105AC160018)。
摘 要:针对现有方法对老挝语声调变化以及音频多样性考虑不足导致音素分割不准确的问题,提出一种多特征交互融合的老挝语无监督音素分割方法。先对自监督特征、频谱特征以及音高特征进行独立编码,避免单一特征的不足;再基于注意力机制渐进融合多种独立特征,使模型更全面地捕捉老挝语的声调变化和音素边界的信息;最后采用可学习框架优化音素分割模型。实验结果表明,相比基线方法,在老挝语音素分割任务上所提方法的R-value值提升了27.88%。Aiming at the inaccurate phoneme segmentation problem caused by the lack of consideration of Lao language tone changes and audio diversity in existing methods,this paper proposes an unsupervised phoneme segmentation method for Lao language with multi-feature interaction fusion.Firstly,self-supervised features,spectral features and pitch features are independently coded to avoid the insufficiency of a single feature.Secondly,multiple independent features are gradually fused based on the attention mechanism,so that the model can more comprehensively capture the information of Lao language tone changes and phoneme boundaries.Finally,a learnable framework is adopted to optimize the phoneme segmentation model.The experimental results show that the proposed method improves the R-value by 27.88%on the Lao phoneme segmentation task compared with the baseline methods.
关 键 词:无监督学习 特征融合 老挝语 音素分割 语音表征
分 类 号:TP183[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7