首页 » 国外科研 >

算法使用MATH无缝混合音符[视频]

2021-08-26 12:50:08来源:

MIT发明的算法自动产生“Portamento”效果 - 从一个音符到另一个音符的音调在任何两个音频信号之间实时地滑动。该算法找到从一个信号将音高移动到另一个信号中的最佳方式,以在声音之间产生平滑的转换(在此示出)。图片由研究人员提供

算法使一个音频信号能够滑入另一个音频信号,重新创建一些乐器的“portamento”效果。

在音乐中,“Portamento”是一个已经用于数百年的术语,参考在一个间距在一个较低或更高间距的音符中滑动的效果。但只能在间距中不断变化的仪器 - 例如人类的声音,弦乐器和缩放技术 - 可以拉下效果。

现在,MIT学生已经发明了一种新颖的算法,它实时在任何两个音频信号之间产生Portamento效果。在实验中,算法无缝合并各种音频剪辑,例如钢琴音符滑入人类的声音,一首歌曲混合到另一首歌曲中。他的论文描述了该算法在最近的数字音频效果国际会议上获得了“最佳学生论文”奖。

该算法依赖于“最优传输”,基于几何的框架,确定移动对象或数据点的最有效的方法 - 多个原点和目标配置。在1700年代中配制,该框架已应用于供应链,流体动力学,图像对准,3-D造型,计算机图形等。

在工作中源于一个课堂项目,Trevor Henderson,现在是计算机科学的研究生,将最佳传输应用于插值音频信号 - 或将一个信号混合到另一个信号中。该算法首先将音频信号分成短暂的段。然后,它发现将音高在每个段中移动到另一个信号中的音高的最佳方式,以产生Portamento效果的平滑滑动。该算法还包括在其转换时保持音频信号的保真度的专用技术。

“这里使用最佳运输来确定如何将一个声音映射到另一个声音中的音高,”培训电子音乐的经过培训的培训训练有素的机构主义者,是在WMBR 88.1,MIT的无线电站上的DJ。“如果它将一个和弦转化为具有不同和谐的和弦,或者使用更多的音符,例如,笔记将从第一个和弦分开并找到一个职位,以便在其他和弦中无缝滑动。”

据亨德森介绍,这是第一种应用最佳运输到转换音频信号的技术之一。他已经使用该算法来构建无线电展上歌曲之间无缝过渡的设备。DJ也可以使用设备在现场表演期间在轨道之间转换。其他音乐家可能会用它来混合舞台上或在工作室中的乐器和声音。

Trevor Henderson在WMBR,麻省理工学院的学生广播电台纪录图书馆。

亨德森在本文中的共同作者是电气工程系和计算机科学系的X-Consortium Career Development助理教授贾斯汀所罗门。所罗门-Who还播放大提琴和钢琴 - 为计算机科学和人工智能实验室(CSAIL)的几何数据处理组(CSAIL),是计算工程中心的成员。

Henderson占据了所罗门的课程,6.838(形状分析),其中有助于应用几何工具,如最佳运输到现实世界应用。学生项目通常专注于虚拟现实或计算机图形的3-D形状。所以亨德森的项目令人惊讶于所罗门。“特雷弗在音频信号中的几何和移动频率之间看到了一个抽象的连接,以创造Portamento效果,”Solomon说。“他所有学期都进入了我的办公室与DJ设备。这不是我期望的看,但它很漂亮。“

对于亨德森来说,它不是太多的延伸。“当我看到一个新想法时,我问,'这是适用于音乐吗?”“他说。“所以,当我们谈到最佳运输时,我想知道如果我将它连接到音频谱会发生什么。”

亨德森说,一种思考最优运输的好方法,正在寻找“建造沙城的懒惰方式”。在这种类比中,框架用于计算将每种砂粒从其在一个无形的桩中移动到砂城堡中的相应位置的方式,使用尽可能少的工作。例如,在计算机图形学中,通过从一个形状上的每个点中找到最佳运动,可以使用最佳传输来转换或变形形状。

将该理论应用于音频剪辑涉及来自信号处理的一些额外思路。根据仪器,乐器通过组件的振动产生声音。小提琴使用字符串,黄铜仪器在空心体内使用空气,人类使用声带。这些振动可以捕获为音频信号,其中频率和幅度(峰值高度)表示不同的间距。

传统上,两个音频信号之间的转换是用衰落完成的,其中一个信号在体积中减小而另一个升高。另一方面,亨德森的算法,将频率段从一个夹子滑入另一个夹子,没有褪色的体积。

为此,算法将任意两个音频剪辑拆分为大约50毫秒的窗口。然后,它运行傅里叶变换,将每个窗口转换为其频率分量。窗口内的频率分量在一起融入纯化的合成“笔记”。然后,最佳传输映射一个信号窗口中的笔记将如何移动到另一个信号中的音符。

然后,“插值参数”接管。这基本上是一个值,确定每个音符在一个信号中从其开始间距的路径上的位置到另一个信号。手动更改参数值将扫描两个位置之间的音高,从而产生Portamento效果。单个参数也可以被编程为并控制交叉器,例如DJ的混合板上的滑块元件,在歌曲之间平稳地逐渐消失。作为Crossfader幻灯片,插值参数变为产生效果。

幕后的幕后是两种创新,确保无失真信号。首先,Henderson使用了一种用于信号处理技术的新颖应用,称为“频率重新分配”,将频率箱整理在一起以形成可以在信号之间容易地转换的单个音符。其次,他发明了一种方法来综合每个音频信号的新阶段,同时拼接50毫秒的窗口,因此邻近窗口不会相互干扰。

接下来,亨德森希望尝试将效果的输出送回其输入。这是,他认为,可以自动创建另一个经典音乐效果“legato”,这是一个不同的笔记之间的平滑过渡。与Portamento不同 - 在启动和结束笔记之间播放所有笔记 - 在两个不同的音符之间无缝过渡,而不捕获之间的任何音符。

参考:“音频传输:通过Trevor Henderson通过最佳运输的广义Portamento。(PDF)