这里会显示出您选择的修订版和当前版本之间的差别。
| 两侧同时换到之前的修订记录 前一修订版 后一修订版 | 前一修订版 | ||
|
音频:识别:资料 [2021/10/28 11:06] cgoxopx [可选方法:] |
音频:识别:资料 [2021/10/28 11:14] (当前版本) cgoxopx [基于HMM的语音识别] |
||
|---|---|---|---|
| 行 3: | 行 3: | ||
| 针对音乐的识别与针对语言的识别算法上并无太大差异 | 针对音乐的识别与针对语言的识别算法上并无太大差异 | ||
| - | ^ ^ 生成模型(如HMM、seq2seq) ^ 识别模型(如CRF、RNN) ^ | + | ^ ^ 生成模型(如HMM) ^ 识别模型(如CRF、RNN) ^ |
| | 优点 | 包含语言模型𝑝(𝐒) | 学习、识别过程简洁 | | | 优点 | 包含语言模型𝑝(𝐒) | 学习、识别过程简洁 | | ||
| | |(理论上)可以进行半监督、无监督学习 | 准确率比较好 | | | |(理论上)可以进行半监督、无监督学习 | 准确率比较好 | | ||
| 行 17: | 行 17: | ||
| - | 为什么在生成模型中不能用深度神经网络? | + | 为什么在生成模型中不能用深度神经网络? (为什么识别任务中无法使用深度生成模型?) |
| > 生成模型中很难将**输入**的序列与**输出**的序列配对。所以,深度学习模型一般是用在另外一个思路上,也就是识别型的模型 | > 生成模型中很难将**输入**的序列与**输出**的序列配对。所以,深度学习模型一般是用在另外一个思路上,也就是识别型的模型 | ||
| 一个可能的解决方法: | 一个可能的解决方法: | ||
| 可借鉴[[https://www.microsoft.com/en-us/research/publication/songmass-automatic-song-writing-with-pre-training-and-alignment-constraint/|SongMASS]]中的对齐方法 | 可借鉴[[https://www.microsoft.com/en-us/research/publication/songmass-automatic-song-writing-with-pre-training-and-alignment-constraint/|SongMASS]]中的对齐方法 | ||