用户工具

站点工具


音频:识别:资料

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

后一修订版
前一修订版
音频:识别:资料 [2021/10/28 11:01]
cgoxopx 创建
音频:识别:资料 [2021/10/28 11:14] (当前版本)
cgoxopx [基于HMM的语音识别]
行 3: 行 3:
 针对音乐的识别与针对语言的识别算法上并无太大差异  ​ 针对音乐的识别与针对语言的识别算法上并无太大差异  ​
  
- 生成模型(如HMM、seq2seq 识别模型(如CRF、RNN) ​  +^     ​^ ​生成模型(如HMM) ​ ​^ ​识别模型(如CRF、RNN) ​  
- 优点 包含语言模型𝑝(𝐒) 学习、识别过程简洁 ​  +优点 ​ ​| ​包含语言模型𝑝(𝐒)   | 学习、识别过程简洁 ​| 
- (理论上)可以进行半监督、无监督学习 准确率比较好 ​  +|   |(理论上)可以进行半监督、无监督学习 ​准确率比较好 ​| 
- 局限 可选的模型有限 难以整合语言模型 ​  +局限 ​ ​| ​可选的模型有限 ​ ​| ​难以整合语言模型 ​| 
- 表达能力有限,准确率较低 只能进行有监督学习,性能受制于数据量 ​  +|   ​| ​表达能力有限,准确率较低 ​只能进行有监督学习,性能受制于数据量 ​|
- +
 ===== 生成模型 ===== ===== 生成模型 =====
 ==== 基于HMM的语音识别 ==== ==== 基于HMM的语音识别 ====
行 19: 行 17:
  
  
-为什么在生成模型中不能用深度神经网络?  ​+为什么在生成模型中不能用深度神经网络?  ​(为什么识别任务中无法使用深度生成模型?)
 > 生成模型中很难将**输入**的序列与**输出**的序列配对。所以,深度学习模型一般是用在另外一个思路上,也就是识别型的模型 > 生成模型中很难将**输入**的序列与**输出**的序列配对。所以,深度学习模型一般是用在另外一个思路上,也就是识别型的模型
  
 一个可能的解决方法: 一个可能的解决方法:
 可借鉴[[https://​www.microsoft.com/​en-us/​research/​publication/​songmass-automatic-song-writing-with-pre-training-and-alignment-constraint/​|SongMASS]]中的对齐方法 可借鉴[[https://​www.microsoft.com/​en-us/​research/​publication/​songmass-automatic-song-writing-with-pre-training-and-alignment-constraint/​|SongMASS]]中的对齐方法
音频/识别/资料.1635390104.txt.gz · 最后更改: 2021/10/28 11:01 由 cgoxopx