基于LSTM的语音合成方法研究与实现任务书

 2022-01-09 06:01

全文总字数:1313字

1. 毕业设计(论文)主要内容:

(1)语音特征提取。主要是时域分析和频域分析。

(2)声纹识别。使用LSTM神经网络模型提取不同人语音声学特征,然后根据每个人的语音特征训练得到对应的声音模型。最终将全体声音模型集合在一起组成系统的多人声音模型库。进行声音识别认证时,系统对识别语音进行相同的特征提取过程,并将语音特征与多人声音模型库进行比对,得到对应声音模型的相似性打分,最终根据识别打分判别得到人的身份信息。

(3)语音合成。采用基于循环神经网络的梅尔频谱预测方法,主要包括双向LSTM网络用来生成编码特征的编码器和引入注意力机制的自回归循环神经网络的解码器。输入字符被编成512维的字符向量,将字符向量映射到梅尔声谱的循环序列到序列结构的特征预测网络并使用一个连接层将梅尔声谱图合成为时域波形,生成最终的语音。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 毕业设计(论文)主要任务及要求

1.查阅15篇相关文献(含近五年外文3篇),并每篇书写200—300字文献摘要(装订成册,带封面);

2.认真填写周记,完成800字开题报告;

3.完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面);

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 毕业设计(论文)完成任务的计划与安排

(1)2020/1/13—2020/2/28:确定选题,查阅文献,外文翻译和撰写开题报告; (2)2020/3/1—2020/4/30:系统架构、程序设计与开发、系统测试与完善; (3)2020/5/1—2020/5/25:撰写及修改毕业论文;(4)2020/5/26—2020/6/6:准备答辩。

4. 主要参考文献

[1] PillaiA, Kaushik P. AC: An Audio Classifier to Classify Violent Extensive Audios[J].2018.

[2] ShenJ, Pang R, Weiss R J, et al. Natural tts synthesis by conditioning wavenet onmel spectrogram predictions[C]//2018 IEEE International Conference onAcoustics, Speech and Signal Processing (ICASSP). IEEE, 2018: 4779-4783.

[3] LiWan, Quan Wang, Alan Papir, and Ignacio Lopez Moreno. Generalized end-to-endloss forspeaker verification. In Proc. IEEE International Conference onAcoustics, Speech, and Signal Processing (ICASSP), 2018.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。