音频:识别:资料

这是本文档旧的修订版！

目录

可选方法：
- 生成模型
  - 基于HMM的语音识别

可选方法：

针对音乐的识别与针对语言的识别算法上并无太大差异

	生成模型（如HMM、seq2seq）	识别模型（如CRF、RNN）
优点	包含语言模型𝑝(𝐒)	学习、识别过程简洁
	（理论上）可以进行半监督、无监督学习	准确率比较好
局限	可选的模型有限	难以整合语言模型
	表达能力有限，准确率较低	只能进行有监督学习，性能受制于数据量

生成模型

基于HMM的语音识别

参考资料

基于HMM的语音识别（一）
基于HMM的语音识别（二）
Speech_Recognition

为什么在生成模型中不能用深度神经网络？

生成模型中很难将输入的序列与输出的序列配对。所以，深度学习模型一般是用在另外一个思路上，也就是识别型的模型

一个可能的解决方法：可借鉴SongMASS中的对齐方法

音频/识别/资料.1635390377.txt.gz · 最后更改: 2021/10/28 11:06 由 cgoxopx