WEBKT

Mel 刻度是怎样模拟人耳听觉特性的?一篇带你深入理解!

25 0 0 0

人耳听觉的“非线性”

Mel 刻度的转换公式

Mel 刻度的应用:Mel 频率倒谱系数 (MFCC)

总结

大家好!今天我们来聊聊 Mel 刻度 (Mel Scale)。对于从事语音处理、音频分析的同学来说,Mel 刻度绝对是个绕不开的话题。它就像一个秘密武器,能够帮助我们更好地理解和模拟人耳的听觉特性。那么,Mel 刻度到底是什么?它是如何模拟人耳听觉的呢?我们一起来揭开它的神秘面纱。

人耳听觉的“非线性”

我们得搞清楚一个关键点:人耳对不同频率声音的感知并不是线性的。换句话说,即使频率的改变幅度相同,我们听到的“音高”变化也不一样。比如,从 100 Hz 到 200 Hz 的变化,和从 1000 Hz 到 1100 Hz 的变化,在人耳听来是完全不同的。前者的音高变化会更明显,而后者则相对不明显。这就是人耳听觉的非线性特性。

为了更好地描述这种非线性关系,科学家们提出了 Mel 刻度的概念。Mel 刻度是一种基于人类听觉感知的频率尺度,它将线性频率转换成更符合人耳听觉的“Mel 频率”。

Mel 刻度的转换公式

Mel 刻度的转换公式有很多种,其中比较常用的是以下两种:

  1. 线性 Mel 刻度:

    mel = 2595 * log10(1 + f / 700)

    其中,mel 表示 Mel 频率,f 表示线性频率 (单位为 Hz)。

  2. 另一种更常用的近似公式:

    mel = 1127 * ln(1 + f / 700)

    其中,mel 表示 Mel 频率,f 表示线性频率 (单位为 Hz)。ln 表示自然对数。

从公式中我们可以看到,Mel 刻度在低频段的“密度”更高,而在高频段的“密度”较低。这恰恰反映了人耳在低频段更敏感,在高频段相对不敏感的特性。

Mel 刻度的应用:Mel 频率倒谱系数 (MFCC)

Mel 刻度最常见的应用之一就是 Mel 频率倒谱系数 (MFCC)。MFCC 是一种在语音识别和音频处理领域广泛使用的特征提取方法。它的主要步骤如下:

  1. 预加重: 增强语音信号的高频部分,提高信噪比。
  2. 分帧: 将语音信号分成短时帧,通常每帧的长度为 20-40 毫秒。
  3. 加窗: 对每帧进行加窗操作,比如汉明窗,以减少频谱泄漏。
  4. 快速傅里叶变换 (FFT): 将每帧的语音信号转换到频域。
  5. Mel 滤波: 使用一组 Mel 滤波器对频谱进行滤波。这些滤波器在 Mel 频率尺度上均匀分布,模拟人耳的听觉特性。
  6. 取对数: 对滤波后的频谱取对数,模拟人耳对声音强度的感知。
  7. 离散余弦变换 (DCT): 对对数频谱进行 DCT 变换,得到 MFCC 系数。通常保留前几个 MFCC 系数,作为语音的特征。

通过 MFCC,我们可以将语音信号转换成一组能够代表其听觉特性的数值,从而用于语音识别、语音合成、说话人识别等任务。

总结

Mel 刻度是模拟人耳听觉特性的重要工具。它通过将线性频率转换成 Mel 频率,更好地反映了人耳对不同频率声音的感知差异。Mel 刻度在语音处理和音频分析领域有着广泛的应用,特别是 MFCC 特征的提取。希望今天的分享能够帮助大家更好地理解 Mel 刻度,并将其应用到实际工作中。如果你有任何问题,欢迎在评论区留言讨论!

音频工程师 Mel Scale听觉特性语音处理

评论点评

打赏赞助
sponsor

感谢您的支持让我们更好的前行

分享

QRcode

https://www.webkt.com/article/6977