用户工具

站点工具


音频:识别:资料

这是本文档旧的修订版!


可选方法:

针对音乐的识别与针对语言的识别算法上并无太大差异

生成模型(如HMM、seq2seq) 识别模型(如CRF、RNN)
优点 包含语言模型𝑝(𝐒) 学习、识别过程简洁
(理论上)可以进行半监督、无监督学习 准确率比较好
局限 可选的模型有限 难以整合语言模型
表达能力有限,准确率较低 只能进行有监督学习,性能受制于数据量

生成模型

基于HMM的语音识别

参考资料

基于HMM的语音识别(一)
基于HMM的语音识别(二)
Speech_Recognition


为什么在生成模型中不能用深度神经网络?

生成模型中很难将输入的序列与输出的序列配对。所以,深度学习模型一般是用在另外一个思路上,也就是识别型的模型

一个可能的解决方法: 可借鉴SongMASS中的对齐方法

音频/识别/资料.1635390377.txt.gz · 最后更改: 2021/10/28 11:06 由 cgoxopx