一种基于特征融合的耳语音向正常音的转换方法 Method for Transforming Whisper to Normal Speech with Feature Fusion期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

一种基于特征融合的耳语音向正常音的转换方法

引用本文：	庞聪,连海伦,周健,王华彬,陶亮.一种基于特征融合的耳语音向正常音的转换方法[J].南京航空航天大学学报,2020,52(5):777-782.

作者姓名：	庞聪连海伦周健王华彬陶亮

作者单位：	安徽大学计算智能与信号处理教育部重点实验室,合肥,230039

基金项目：	国家自然科学基金(61301295)资助项目；安徽省自然科学基金(1708085MF151)资助项目；安徽高校自然科学基金(KJ2018A0018)资助项目；安徽大学科研训练计划 (J10118520444) 资助项目。

摘要：	使用耳语音的频谱包络来预估正常音的基频特征，这类算法在对正常音基频预测的准确性上存在一定不足，在合成语音自然度方面存在着明显欠缺，有时会出现音调失常等问题。本文提出一种声学特征融合的方法，通过双向长短期记忆（Bi-long short-term memory， BLSTM）深度网络来逐帧预测正常音基频。首先，使用STRAIGHT模型和相关代码，分别对耳语音和正常音语料进行预处理，提取耳语音的梅尔倒谱系数（Mel-scale frequency cepstral coefficient，MFCC）、韵律及谱包络特征，正常音的基频与谱包络特征。然后使用BLSTM深度网络，分别建立耳语音和正常音谱包络特征之间映射关系，以及耳语音MFCC、韵律及谱包络特征对正常音基频F₀的映射关系。最后根据耳语音的MFCC、韵律及谱包络特征获得对应的正常音基频和谱包络，使用STRAIGHT模型合成正常音。实验结果表明，相较于仅使用谱包络估计基频，采用此种方法引入语音韵律和MFCC的融合特征是对基频特征的良好补充，解决了音调失常的现象，转换后的语音在韵律上更加接近正常发音。
关键词：	语音转换特征融合韵律模型 STRAIGHT模型双向长短期记忆
收稿时间：	2019/6/6 0:00:00
修稿时间：	2020/1/5 0:00:00
Method for Transforming Whisper to Normal Speech with Feature Fusion

PANG Cong,LIAN Hailun,ZHOU Jian,WANG Huabin,TAO Liang.Method for Transforming Whisper to Normal Speech with Feature Fusion[J].Journal of Nanjing University of Aeronautics & Astronautics,2020,52(5):777-782.

Authors:	PANG Cong LIAN Hailun ZHOU Jian WANG Huabin TAO Liang

Abstract:

Keywords:	voice conversion feature fusion prosodic model STRAIGHT model bi-long short-term memory
本文献已被万方数据等数据库收录！
	点击此处可从《南京航空航天大学学报》浏览原始摘要信息
	点击此处可从《南京航空航天大学学报》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏