计算机科学

用于3D声音的数字仿真

就像您在场一样的声音世界,但是戴着一个简单的耳机:特别是由于有有效的方法来数值求解某些方程式,因此虚拟现实技术的这一梦想终于实现。

马修·奥萨尔(Matthew Aussal)和FrançoisAlouges 对于科学N°473
本文仅供e的订户使用
图片

随着数字革命的发展,曾经是科幻小说的技术正悄悄渗入我们的生活,并迅速普及。观看浮雕场景或观看时就是这种情况 3D。对于电影院来说,十年足以被其征服,随后是电视或视频游戏,我们已经见证了虚拟现实耳机的兴起,使他们的佩戴者沉浸在逼真的视觉场景中,可以移动。尽管娱乐性以外的应用程序(计算机辅助设计,医疗诊断辅助工具,外科医师培训等)仍在开发中,但这些系统的潜力对它们的未来毫无疑问。

这些沉浸式可视化头戴式耳机开始提供对我们的视觉系统可接受且具有说服力的信息。但是提供给我们的听力系统的信息却并非如此。

这是关于什么的?就像我们的眼睛可以让我们从三个维度看到一样,我们的耳朵不知不觉地为我们提供了声音中包含的空间信息,尤其是关于声源的位置和运动的信息。当缺少这些听觉信息,甚至与视觉信息矛盾时,我们的认知系统就不会支持它。有时,它甚至抑制了虚拟现实设备提供的错觉,使用户感到不舒服,甚至可能引起恶心。

因此,了解声音空间化的物理和生理机制对于提供身临其境,完整且有说服力的虚拟现实体验至关重要:如果容易理解我们的两只眼睛从略有不同的观点来看同一场景。当我们沉浸在声场中时,要知道我们的每个耳朵正在听的声音要困难得多。

在许多专门研究该主题的研究中,其中一种方法是使用数学模型通过计算机模拟声波从声源到耳道的传播。这些数值模拟是本文的主题,确实可以提供与实验室中的测量结果相当的结果,但具有更高的灵活性和可重复性,且成本较低。这些“数字实验”可以对抗假设,验证模型或使模型无效,并为面向公众的应用程序提供有用的数据。

为了更好地了解声音研究的兴趣 3D 以及数字模拟方法,让我们记住,市场上已经存在通过一组扬声器分别提供适当声音通道的设备来提供声音空间化的设备。链条 家庭影院 例如5.1或7.1,甚至是杜比Atmos系统提供的64个通道。这些设备可以例如通过播放扬声器之间的强度差异,延迟或混响效果,在听众周围虚拟放置声音对象。这是众所周知的立体声系统的一种概括。

戴着头盔的空间渲染

其他较新的技术,例如 a (高阶Ambisonics,“高阶泛滥”)或 世界粮食首脑会议 (波场合成,或“波前合成”),尽管它们的数学形式主义更为复杂,但它们的工作原理相同。

但是,所有这些系统都面临相同的局限性:空间渲染的准确性与扬声器的数量成正比。因此尽管进行了小型化,它们仍然体积庞大。同样,尽管这些设备非常适合大批量安装(电影院,礼堂,礼堂等),但它们与虚拟现实耳机的便携性和移动性不兼容。因此,我们必须转向适当的声音空间化技术,即耳机上的“双耳合成”。

双耳听力是指通过两只耳朵的声音刺激产生的听觉。因此,双耳合成的想法是合成适合每个耳朵的声音。

当声音在太空中发出时,通常到达的时间要早​​些,并且强度要高到两只耳朵之一。这为我们的认知系统提供了有关发射源方向的两个线索。我们给他们起名字 Itd (双耳延时,“耳间时差”)和 (双耳水平差,“强度的耳间差异”)。

但是这些本地化指标是不够的。例如,它们不能区分与两只耳朵处于相同距离的声源,即在两只耳朵之间通过的矢状平面内。但是,我们能够有效地区分来自上方,前方,后方等的此类声源。我们的大脑如何运作?

要对其进行解释,我们必须首先知道任何声音都可以看作是正弦声波的叠加,并且这种声波在介质中的传播会受到其遇到的障碍的几何细节的干扰。 。

这种衍射现象取决于波长(所考虑的正弦波的两个连续峰值之间的距离)。与波长相比,较小的几何细节几乎不会改变传播:相应的波对其不敏感。相反,尺寸等于或大于波长的几何细节会极大地改变传播并干扰声学效果。当物体的形状复杂时(如耳廓),情况更是如此。

头和耳朵的形状发挥

当声源发出的声音传播到鼓膜时,听者的头和耳朵的形状会衍射出其所有成分,这些成分的波长大部分都小于一米。就频率而言,这会导致数百赫兹以上的所有频率的频谱发生变化,也就是说,对应于这些频率的波的振幅和相位发生变化。因此,构成初始声音信号的不同音调将以与发射的相对强度不同的相对强度被感知。但是,来自不同地方的两种声音不会遇到相同的障碍和相同的细节。因此,对它们进行了不同的修改。我们的大脑明智地利用了这第三条线索,使感知范围更加完整,并大大丰富了我们在整个空间中定位声音的能力。

通过扩展,两个形态不同的人(尤其是耳朵)不会听到相同的声音,尤其是在高频下。因此,每个人都有自己的声音世界!

从剧院电话到双耳合成

在双耳合成中,我们试图利用由ITD D 以及我们刚才提到的频率变形。这三个索引编码在一组命名函数中 人力资源工作组 (头部相关传递函数,即“与头部有关的传递函数”)。

更确切地说,功能 高铁 对于每个声音频率和每个入射方向,将在耳道入口处的声压与在没有听众的情况下测得的声压连接在头部占据的音量中间最后。这些功能构成了“滤波器”,这些滤波器在数学上表征了由于头部​​的形态而引起的声音转换,并在此基础上进行了双耳合成。

在更精确地解释双耳合成由什么组成之前,我们可以简要地回顾一下其双耳史。最初的声音空间化体验可以追溯到 ixe 世纪,克莱门德·阿德(ClémentAder)的剧院电话(1881)。这是电视节目的第一个现场直播服务,将电话和立体声相结合 (请参见下图).

在1930年代,英国工程师Alan Blumlein引入了立体声录音,而美国物理学家Harvey Fletcher则申请了一项描述双耳电话系统的专利。

弗莱彻系统的想法是使用一个人造的头来进行双耳声音记录,使用一个麦克风放置在人体模型每只耳朵耳廓的空洞中,后者必须尽可能地模仿人类的形态。 。然后,声波被人体模型的形态细节所衍射,并且如此变换的声音被麦克风记录下来。然后,可以在任何耳机上收听此特定的立体声录音,这通常会带来令人印象深刻的结果(例如,听 虚拟理发店,请访问www.youtube.com/watch?v=IUDTlvagjJA)。

应该注意的是,弗莱彻的设备所提供的空间感觉仅仅是感知性的:与上述扬声器系统不同,没有任何声场的物理再现。但是,即使就音乐的音色和空间渲染而言,即使今天弗莱彻的方法在保真度方面仍然无与伦比, 实际上 注册后才能返回。因此,它不能是交互式的。因此,该方法不能在虚拟现实条件下使用,在虚拟现实条件下系统必须是动态的,并且必须实时适应源和侦听器的位置。

另外,自2000年代以来,随着计算机功能的增强,法国许多实验室出现了第二种方法-双耳合成(IRCAM,音乐声学实验室,法国电信,比利财团等)和国外(德国的弗劳恩霍夫研究所,加州大学戴维斯分校,奥菲斯计划等)。为了实现它,您必须首先确定过滤器 人力资源工作组 受试者(或形态相似的假人)。为此,我们将后者放置在直径为几米的球体中心,并在上面分布有扬声器。对于这些声音发射器中的每一个,都将测量放置在对象耳朵中的麦克风拾取的声音。从所有这些测量中,我们推导出功能 高铁.

然后是双耳合成:如果我们想让听众感觉到声音来自给定方向,那么就可以使用滤波器来处理所讨论的声音。 高铁 与此方向相对应。对于数字化声音,这等于对该声音执行计算并将结果传输到听众的耳机。

长期的实验测量...

因此,通过这种方法,可以以计算量为代价对任何声音内容进行空间化处理。但是任务仍然是合理的,因为可以在标准计算机甚至手机上进行数字处理。另外,当实时地进行所述计算时,空间化可以考虑收听者的位置,声源的位置及其相对方位。在这种情况下,双耳合成非常适合虚拟现实系统。

双耳合成似乎很有吸引力,但是有几个困难可以解释为什么它难以在外部研究实验室中实现。

一,过滤器测量 人力资源工作组 本质上是离散的,守时的:它们并不能覆盖整个空间,因为显然我们在围绕听众的球体的每个点上都没有扬声器。因此有必要内插或外推过滤器的值 人力资源工作组会影响声音的再现质量 3D。另外,由于所实现的系统的复杂性,测量结果有误差。

另外,测量通常在声学控制的环境中进行,通常是在消声室中进行(即具有消除反射的吸收壁)。然后仅测量源发出的直接声音:环境不起作用。但是,在一个房间中,墙壁和物体上的许多反射都是线索,可以使我们的大脑定位声音的能力要有效得多,这些线索可以使我们的大脑快速,准确地定位声源。声音。因此,必须考虑环境的影响。

...由数值模拟代替

可以通过声音传播的数字模拟来绕过双耳合成的这些主要限制因素。波传播的物理过程是用方程式建模的,其中最著名(也是最简单)的方程式是所谓的d'Alembert和Helmholtz。

现在我们可以计算过滤器 人力资源工作组 通过对这些方程式进行数值求解,以求解传播到人头的声波,该方程式也由数值模型表示。然后我们使用这些 人力资源工作组, 由“数字测量”确定,而不是 高铁 由实验室“模拟测量”确定。这样就消除了前面提到的双耳合成的两个障碍,即实验室测量的离散,不连续性质以及影响它们的误差。

这种方法非常有吸引力,因为它不需要复杂的测量设备或功能特别强大的计算机。此外,可以使用特定审计员头的数字模型自定义计算,并获得足够精细的结果,而不必内插法的值。 高铁.

与混响(声波的反射)相关联的第三把锁也可以通过这次解决房间中的波传播模型来删除。根据所选择的模型以及对问题物理的简化,甚至可以认为该计算是实时进行的。

解波动方程

实际上, 人力资源工作组 需要精确解析传播方程,而混响的计算可能会更粗糙。这尤其是通过要建模的几何细节的相应大小来解释的:与耳朵的亭子相关的物理比与房间的平坦墙壁相关的物理更微妙。

但是,为了使数字分辨率精确可靠,有必要知道所用方法和算法的局限性。这需要对相关的数学模型(声波的传播)以及潜在的现象(衍射)有深入的了解。通常不可能找到波传播方程的“解析”解(紧凑的数学表达式)。因此,需要通过一种适应性方法在数值上解决它。这可以用软件实现并由计算机执行,将提供精确的理论解的近似值。这种方法是许多科学和技术领域中应用数学的特征。

由于波传播的数值模拟具有许多应用,因此已经是一个文献充分证明的主题。建筑声学,隐身军车的设计,风力涡轮机场对雷达的影响,噪声污染的研究等。 :声波或电磁波的传播涉及无数问题,数值模拟通常可提供有用的信息,同时又无需进行昂贵或困难的实验。

用什么方法来数值求解描述波传播的方程式?该方程是“偏微分方程”,也就是说,将要确定的函数(取决于多个变量)与其派生函数联系起来。

建立合适的空间网格

自1950年代以来,所谓的有限元方法为此类方程解的近似计算提供了严格的数学框架。在实践中,总的想法首先是将空间切成小块:其中离散化了方程式,其中方程式由足够精细且几何形状适应的网格定义。网格的节点是确定求解函数的(近似)值的点。然后我们通过假设近似函数解是从适当的集合中选择的简单函数和已知函数的和来寻找这些值。这种方法可以在数学上证明近似解的存在性和唯一性,如今已成为工业界进行数值计算的基本工具。

让我们以频域中的声学问题为例,即频率定义明确的正弦声波的传播(Helmholtz方程, 见第45页方框)。此处,有限元方法将包括定义声波在其中传播的体积的网格。该网格将用作计算代表声压的近似解的基础。

由于所需解决方案的振荡性质,为了获得足够的精度,网格的边缘的长度必须在1/6和1/12之间,其中l是要考虑的波长。随之而来的是,对于高频(短波长),经常发现网格的顶点数量是禁止的。因此,一块3 3 4 3 2.5米,边长为0.5厘米的立方网格的网格将具有约2.4亿个顶点,这将导致方程系统为2.4亿个未知数!

可以减少任务的规模。确实,数学运算允许以积分的形式为波动方程提供公式,其中未知函数仅通过其在传播域边界上的值进行干预。因此,对于在听众所在的开放环境中传播的声波,只有听众表面上的未知函数所获取的值才介入积分方程。

将计算简化为有限的曲面

这个表面积分方程的数值分辨率需要数学写法和比体积方法更复杂的基础算法。但是这样做的好处是,仅必须对受波作用的物体表面进行离散化,而不必对整个传播体积进行离散化。在设想将听众放置在上方几米的房间的情况下,未知数从2.4亿减少到只有几百万。更一般而言,由于积分公式将所有(无限)空间中的问题减少为有限表面上的问题,因此其数值分辨率比偏微分方程精确得多。

数值求解这些积分方程的有效方法的开发始于2000年前,现在仍是一个非常活跃的研究领域。让我们举出三种适合于波传播问题并在当今的研究和工业中使用的快速方法的名称:快速多极方法,该方法是1988年在耶鲁大学由Leslie Greengard和Vladimir Rokhlin发明的,分级矩阵,由莱比锡马克斯-普朗克研究所的Wolfgang Hackbusch于1999年发明, 稀疏基数正弦分解,这是我们在2013年设计的。

所有这些方法都可以极大地减少计算时间和减少用于解析波传播的积分公式所需的内存,这使得今天的数值计算成为可能。 人力资源工作组 可通过普通计算机访问。通常,计算所有过滤器大约需要十个小时 人力资源工作组 具有足够的应用精度。

的数值计算 人力资源工作组 为更好地理解聆听者的感知与他的形态细节之间的联系开辟了道路,尤其是他的耳朵和头部的形状。使用数字模型,很容易使虚拟对象的耳朵或头部变形,然后建立可能形状的详尽数据库。然后我们可以提出一个家庭 人力资源工作组 适应每个。更一般地,这些数字方法将有助于改善虚拟现实头戴式耳机的声音空间分布,但也有助改善视力障碍者的助听器或指导设备。

最后,在频谱的另一端,开发的数学工具的通用性使其可应用于许多其他波传播问题。因此,用于计算的相同软件和相同算法 人力资源工作组 可以有效地模拟剧院中声波的传播,水生环境中声纳发出的波,隐形飞机试图逃逸的雷达波(电磁)等。广阔的应用领域!

主题

杂志

订阅并访问超过20年的档案!

订阅优惠

12期+ 4期特刊
纸质+数字版

+无限访问超过20年的档案

我订阅

订阅并访问超过20年的档案!

订阅优惠

12期+ 4期特刊
纸质+数字版

+无限访问超过20年的档案

我订阅

我们的最新出版物

回到顶部

已经有帐号了?

身份证明

标识自己可以访问您的内容

看到

还没有帐户 ?

注册

注册以激活您的订阅或订单问题。

创建我的账户