输出:
phoneme:音素:通过发音的最小单元
grapheme:字母:通过书写的最小单元
word:单词:通过单词
morpheme:词素:语言中构成词的要素
输入
取声音信号的一个windows,这个windows一般为25ms
通过一个向量表述这一小段声音讯号的特征:
1、400 sample points:采样点(假设声音的频率十16KHz)
2、39-dim MFCC
3、80-dim filter bank output:录波器组输出<逐渐取代MFCC>
原文:https://www.cnblogs.com/zx5359499/p/13941798.html