计算听觉场景分析

计算听觉场景分析(CASA)是通过计算手段对听觉场景分析的研究。从本质上讲,CASA系统机器听觉系统,旨在以人类听众的方式分离声源的混合物。CASA与盲目的信号分离领域不同,因为它(至少在某种程度上)是基于人类听觉系统的机制,因此使用的是不超过两个麦克风的声学环境录音。它与鸡尾酒会问题有关。

计算听觉场景分析的原理

由于CASA的作用是模拟听觉系统的功能部分,因此有必要用已知的物理模型来看待生物听觉系统的部分。由外耳、中耳和内耳三个区域组成,听觉xxx作为一个复杂换能器,将声音振动转换为听觉神经动作电位。外耳由外耳、耳道和耳鼓组成。外耳像一个声学漏斗,帮助定位声源。耳道作为一个谐振管(像一个风琴管),可以放大2-5.5千赫兹的频率,xxx放大率约为11分贝,发生在4千赫兹左右。作为听觉器官,耳蜗由两层膜组成,即赖斯纳膜和基底膜。基底膜通过特定的刺激频率与基底膜特定区域的谐振频率相匹配,对音频刺激进行移动。基底膜的运动使内毛细胞向一个方向移动,这在螺旋神经节细胞中编码了一个半波整流的动作电位信号。这些细胞的轴突构成了听觉神经,对整流刺激进行编码。听觉神经的反应选择某些频率,与基底膜相似。对于较低的频率,纤维表现出相位锁定。高等听觉通路中心的神经元对特定的刺激特征进行调谐,如周期性、声音强度、振幅和频率调制。通过后部皮层区域,包括后部颞上叶和后部扣带,ASA也有神经解剖学上的关联。研究发现,在阿尔茨海默病患者中,ASA以及隔离和分组操作的障碍会受到影响。

系统结构

关联图

通过统一2个音高理论流派,建立了音高感知的重要模型。位置理论(强调已解决的谐波的作用)时间理论(强调未解决的谐波的作用)相关图通常在时域中通过模拟听觉神经发射活动与每个滤波器通道的输出的自相关计算出来。通过汇集跨频率的自相关,汇总的相关图中的峰值位置与感知的音高相对应。

交叉相关图

于耳朵在不同的时间接收音频信号,所以可以通过使用从两只耳朵检索的延迟来确定声源。通过交叉关联左、右声道(的模型)的延迟,重合的峰值可以被归类为同一局部的声音,尽管它们的时间位置。

0

点评

点赞

相关文章