====== 可选方法： ======

针对音乐的识别与针对语言的识别算法上并无太大差异  

^     ^ 生成模型（如HMM）  ^ 识别模型（如CRF、RNN） ^  
| 优点  | 包含语言模型𝑝(𝐒)	  | 学习、识别过程简洁 |
|   |（理论上）可以进行半监督、无监督学习 | 准确率比较好 |
| 局限  | 可选的模型有限  | 难以整合语言模型 |
|   | 表达能力有限，准确率较低 | 只能进行有监督学习，性能受制于数据量 |
===== 生成模型 =====
==== 基于HMM的语音识别 ====
=== 参考资料 ===
[[https://blog.csdn.net/qq_23660243/article/details/80821617|基于HMM的语音识别（一）]] \\
[[https://blog.csdn.net/qq_23660243/article/details/80835308|基于HMM的语音识别（二）]] \\
[[https://github.com/drbinliang/Speech_Recognition|Speech_Recognition]] \\
------------


为什么在生成模型中不能用深度神经网络？  （为什么识别任务中无法使用深度生成模型？）
> 生成模型中很难将**输入**的序列与**输出**的序列配对。所以，深度学习模型一般是用在另外一个思路上，也就是识别型的模型

一个可能的解决方法：
可借鉴[[https://www.microsoft.com/en-us/research/publication/songmass-automatic-song-writing-with-pre-training-and-alignment-constraint/|SongMASS]]中的对齐方法