人工智能图像生成器显然能做的不仅仅是专业的艺术创作。一对乐队成员正在使用相同的算法来创作音乐。
这个名为Riffusion的项目使用人工智能文本到图像的生成技术来生成谱图——或音乐的视觉表示——然后将其转换成音频片段。
人工智能训练计算机算法来识别物体和地点的图片,并用它们来复制类似的图像。项目包括DALL-E 2《Midjourney》和《Stable Diffusion》都非常擅长图像生成,它们可以尝试通过基于文本提示的各种艺术风格来可视化任何你想要的东西。
图像生成启发了软件开发人员Seth Forsgren和机器人专家Hayk Martiros,看看同样的人工智能程序是否可以应用于音频领域。“Hayk和我一起在一个小乐队里演奏,我们开始这个项目只是因为我们喜欢音乐,”Forsgren告诉PCMag。“看到稳定扩散在图像生成方面的惊人效果,我们问自己使用扩散方法来创作音乐会是什么样子。”
为了找到答案,两人在与文本配对的光谱图图像上训练了开源的稳定扩散。然后,该程序能够根据给定的提示生成音乐的谱图。
“起初,我们甚至不知道稳定扩散模型架构是否有可能创建具有足够保真度的频谱图图像以转换为音频,但事实证明它可以做到这一点,甚至更多,”Forgren说。“在这条路上的每一步,我们都对各种可能性越来越印象深刻,一个想法会引发下一个想法。”
Forsgren和Martiros发表了他们的结果(在新窗口中打开)在Riffusion网站上,这是一个爱好项目。但最重要的是,该网站的访问者可以插入他们自己的文字提示(在新窗口中打开), Riffusion将生成他们请求的频谱图,并以音频剪辑的形式在网站上播放。
此外,该程序可以创建新的变化的频谱图,因为你听。这是一个Riffusion试图创造“阿拉伯福音”的例子。
结果出奇的好。我们很喜欢这段爵士乐片段,它是用这样的提示制作的:“放克低音与爵士萨克斯独奏。”
Riffusion也可以尝试复制歌曲,包括韩国流行音乐或“阿姆风格的愤怒说唱(在新窗口中打开),没有歌词。相反,这些曲调将以悦耳的人声胡言乱语为特色,但仍与歌曲的整体音调相匹配。
例如,下面这首“幻想民谣,女声”变成了“青少年流行歌手”的曲调。对我们来说,最终的歌曲听起来既像人类,又像外星人。
福斯格伦说,这个节目的歌词听起来“有点超凡脱俗”。另一个限制是,该模型还不能理解更高层次的歌曲结构,比如它不会尝试重复合唱或类似的东西。你可以想象在这个模型的基础上建立一个抽象模型来做到这一点。”
因此,这项技术不能完全取代人类创作的音乐。但该项目表明,人工智能图像算法在其他方面可能有很多未释放的潜力,包括可能为音乐创作者提供一些灵感。Forsgren和Martiros在周四发布了Riffusion,许多用户已经在查看他们的项目。
“我们看到网站的流量非常大,这是一个旋风般的努力,以保持足够的gpu运行来服务所有的请求,但我们有一个有趣的一天,”Forsgren说。因此,由于流量负载,Riffusion网站可能难以输出您的请求。然而,两人也在网上发布了他们项目的代码GitHub(在新窗口中打开)。