这是本文档旧的修订版!
针对音乐的识别与针对语言的识别算法上并无太大差异
生成模型(如HMM、seq2seq) | 识别模型(如CRF、RNN) | |
---|---|---|
优点 | 包含语言模型𝑝(𝐒) | 学习、识别过程简洁 |
(理论上)可以进行半监督、无监督学习 | 准确率比较好 | |
局限 | 可选的模型有限 | 难以整合语言模型 |
表达能力有限,准确率较低 | 只能进行有监督学习,性能受制于数据量 |
基于HMM的语音识别(一)
基于HMM的语音识别(二)
Speech_Recognition
为什么在生成模型中不能用深度神经网络?
生成模型中很难将输入的序列与输出的序列配对。所以,深度学习模型一般是用在另外一个思路上,也就是识别型的模型
一个可能的解决方法: 可借鉴SongMASS中的对齐方法