【读论文】PNCC

一种更鲁棒的特征提取方法

这篇论文《Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition》提出了一种新的特征提取方法 Power Normalized Cepstral Coefficients (PNCC),相较于MFCC能够在增加少量计算复杂的情况下,提高语音识别系统在噪声环境下的性能。论文将PNCC的描述为“在线处理”,可以理解为仅仅依靠已采集的数据进行实时处理,而不依赖其他更多的数据。

论文地址:http://www.cs.cmu.edu/~robust/Papers/OnlinePNCC_V25.pdf

代码地址:https://www.cs.cmu.edu/~./mharvill/RATS/software_releases/PNCC/PNCC_deployed_v6/

论文理解

在我看来,这篇论文相较于MFCC主要提出了3点改进。

  1. 三角滤波器组(Triangular Frequency Intergration) 替换为Gammatone滤波器组(Gammatone Frequency Integration)
  2. 短时处理(Short-Time Processing) 替换中等时间处理(Medium-Time Processing)
  3. Logarithmic Nonlinearity 替换为Power Function Nonlinearity 并添加 Mean Power Normalization

具体计算流程与MFCC Coerricients及RASTA-PLP Coefficients的对比见下图

滤波器组如下:

至于替换的中等时间处理(Medium-Time Processing)Power Function NonlinearityMean Power Normalization不再赘述,可以看论文及代码,写的还是比较清楚。

论文结果

在实际项目关键词识别的中使用了PNCC进行了实验,对两个测试集进行对比分析,其中一个从MFCC替换为PNCC后495个文件错误案例增加一个,另外一个测试集265个数据正确案例增加12个,增加计算时间成本(CPU : cortex A7)约1.2倍。

实验结果表明,PNCC相较于MFCC对于语音识别系统的鲁棒性具有一定程度的提升,同时计算复杂度也有略微的提升。实际使用过程中需要项目在时间复杂度和准确度之间作出平衡。