听觉的声学现象和原理 - 声学学报杂志社投稿_期刊论文发表|版面费|电话|编辑部- 声学学报

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

听觉的声学现象和原理

作者:

关键词:

摘要：

4.2双耳效应和立体声人有双耳绝对不仅是为了对称和美观，双耳接收声音后可以定出声源的方向和距离。声源在正前方时双耳定向精度高，声源在侧向时定向精度低；无论声源在那个方向，双耳定距离都比较差，要靠眼睛帮助。

表1临界带带宽划分表Bark下截频上截频中心频率带宽 0801 2701 2701 4801 4801 7201 7202 2 0002 3202 3202 72 7003 1502 1503 73 7004 44 4005 35 3006 4005 8001 4007 7007 0001 7009 5008 5001 00010 5 00015 5 500

双耳定向的解释是到达两耳的强度差、时间差和相位差，低频(小于800 Hz)和高频(大于2 000 Hz)时强度差起主要作用；中频时时间差(即相位差)起主要作用；因为它们的关系很复杂，实验也不好做，所以不易得出确切的理论[1]。

早期剧场实现立体声使用的方法较笨拙，在舞台上排列一排传声器，在剧场后面安放相反次序的扬声器来达到立体声的效果。现在用耳机接收时，只要调节达到双耳的声强和相位，就可以得到惟妙惟肖的立体声效果，因为声音最终是进入人耳的两个耳道，对双耳的有关实验，都是用一个假人头，在耳道位置放置传声器。

对家庭影院的立体声，国际电信联盟(international telecommunication union，ITU)有一个推荐标准：ITU-R标准BS.775-1，简称5.1标准。它由5个全频带(达到20 kHz)的音箱按图20方式排放，另有一个低频音箱(俗称低音炮)放送低频，由于低频方向性不强，放置位置关系不大，通常放于中央方向[3]。

图20 5.1国际推荐标准家庭影院立体声音箱摆放示意图

4.3鸡尾酒会效应(cocktail party effect) 人耳在嘈杂的环境里可以专注于和自己朋友的谈话，而不太受周围其他无关声音的干扰；同时，突然听到与自己有关的声音时可以立即反应，如：有人在呼叫他的名字等，此时和朋友谈话的音量不是很高，呼叫的声音也不大，但人耳加上大脑的作用，可以排除干扰，直奔自己的听觉主题，这是任何仪器设备都达不到的特殊功能。1953年科学家将这效应命名为鸡尾酒会效应，因为鸡尾酒会的环境是此效应的典型例子，对鸡尾酒会效应心里学家提出了一些模型来加以解释，如：过滤器模型、衰减模型、信息分配模型等，这里不详细讨论了[7]。

4.4虚拟低频(virtual bass) 在电声设备日渐小型化的情况下，例如：平板电视、手机、小型游戏机等都希望有丰富低频的效果，遗憾的是尺度的限制，小的扬声器不可能发出低频声；弥补的方法是利用心理声学的现象，使听者感觉到原来扬声器发出的没有低频的声信号有低频的存在，该技术称为虚拟低频(virtual bass)。许多音频工程专家研究了虚拟低频的实现方法，其中一种方法称为相位声码器(phase-vocoder)，其基本原理是将没有低频的信号从时间域变换到频率域，然后增强扬声器可以发出的中频，此时就能感觉到有低频存在。图21是虚拟低频处理示例，上图是无低频的原始信号频谱，下图是增强中频的频谱，将增强中频的频谱逆变换为时间信号，此时就可以感觉到缺失低频的存在，这是心理声学又一个奇妙的现象[9]。

图21 虚拟低频处理示例 a.无低频的原始信号频谱;b.增强中频的频谱

5人耳感知语音的声学原理

人耳对语音和音乐的感知机理有所不同，音乐感知和语音感知都和大脑理解有关，和人过去听觉经历而训练形成的脑部兴奋区位有关。实验证明，音乐和语音在大脑的兴奋部位是不同的，但此类人体实验不多，笔者对这些没有研究，不能有所介绍，现仅就人耳对语音感知的某些问题作简单叙述。因为对语言有记忆的能力，因此从理解语义来说，有些音听不清并不影响对语义的理解，而对听外语训练少的人，听不清就理解不好。

基于上述人耳对声音分析的机理，可以看出人耳是一个进行频率分析的器官。实验证明，对较长时间的纯音信号，只要有1 Hz的频率变化，人耳就可以辨别出来。语音分析、合成的研究证明，人耳对不同参数语音敏感程度是不同的，其对语音信号的强度不敏感，因为人耳感知声音的动态范围达到120分贝，耳部的机械结构很难使其精细分辨强度的动态变化。反之，人耳对语音信号的共振峰位置极为敏感，共振峰位置的细微变化都会影响语音的清晰度和和可懂度。图22是典型的元音/a/、/i/、/u/的口腔剖面和相应频谱图。

图22 元音/a/、/i/、/u/的口腔剖面和相应频谱图

语音生成的原理告诉我们，喉部发出的气流是语音产生的动力源，其气流的频谱近似平直；人们发不同元音或辅音时口腔的形状不同(图22)。喉到唇部构成一个多种形状的共振腔，对气流进行调制，产生不同的元音或辅音。共振峰特性是识别不同语音的主要依据，也是识别不同话音个性特征的主要依据，是语音识别、合成和编码中最重要的参数；其频谱包络的峰(图22)近似对应语音信号的共振峰。语言研究证明共振峰是人耳感知不同语音最重要参数，共振峰位置在语音感知中起主要作用[11]。语音合成研究也证明了共振峰位置的重要性，共振峰位置越精确，合成语音质量越高，合成语音就越逼真；而共振峰的宽度、幅度对语音感知不重要，也不敏感。早期共振峰语音合成算法，只考虑语音信号共振峰位置，而和共振峰的幅度大小及共振峰的宽度关系不大，共振峰宽度和幅度仅作为一个和共振峰频率有固定关系的经验参数，不必给出具体大小。从语音编码角度看，线性预测声码器(linear prediction vocoder)比通道声码器(channel vocoder)语音质量高，就是因为前者对共振峰的描述要精确，现在通道声码器已为线性预测声码器所淘汰和取代。这些例子充分说明人耳基底膜分析声音的“部位理论”，也是处理语音信号的科学依据。

文章来源：《声学学报》网址: http://www.sxxbzz.cn/qikandaodu/2021/0309/542.html