用户工具

站点工具


音频:识别:资料

这是本文档旧的修订版!


可选方法:

针对音乐的识别与针对语言的识别算法上并无太大差异

		生成模型(如HMM、seq2seq)				识别模型(如CRF、RNN)  
优点		包含语言模型𝑝(𝐒)						学习、识别过程简洁  
		(理论上)可以进行半监督、无监督学习		准确率比较好  
局限		可选的模型有限							难以整合语言模型  
		表达能力有限,准确率较低				只能进行有监督学习,性能受制于数据量  

生成模型

基于HMM的语音识别

参考资料

基于HMM的语音识别(一)
基于HMM的语音识别(二)
Speech_Recognition


为什么在生成模型中不能用深度神经网络?

生成模型中很难将输入的序列与输出的序列配对。所以,深度学习模型一般是用在另外一个思路上,也就是识别型的模型

一个可能的解决方法: 可借鉴SongMASS中的对齐方法

音频/识别/资料.1635390104.txt.gz · 最后更改: 2021/10/28 11:01 由 cgoxopx