谷歌开发了一种人工智能,可以将文本提示转换为持续几分钟的音乐。
作为The Verge报告(在新窗口中打开),人工智能模型,类似于打开AI的图像生成器DALL-E,名为MusicLM,由b谷歌于2009年披露研究论文(在新窗口中打开)由13名研究人员撰写。这篇论文包含了大量使用MusicLM制作的样本,其中包括旋律技术,摇摆和爵士的五分钟剪辑,以及从冥想声音和电子音乐到死亡金属和说唱的类型。
人工智能也能够从旋律和文本提示的组合中生成音乐。例如,在一个案例中,它根据“Bella Ciao”的旋律生成了一个歌剧声乐。在另一个例子(在新窗口中打开)例如,MusicLM能够从“健身房”的提示中生成一首歌,这首歌的歌词不连贯,人声和旋律带有独特的阿拉伯流行音乐。
这个工具还可以产生雷鬼顿和电子音乐的融合,“带有一种太空的、超凡脱俗的声音”,就像一个详细的文本提示所写的那样,会让人产生一种“迷失在太空中”的体验。
研究人员表示,他们对人工智能的实验表明,“MusicLM在音频质量和对文本描述的依从性方面都优于以前的系统。此外,我们证明了MusicLM可以同时受文本和旋律的制约,因为它可以根据文本标题中描述的风格转换口哨和哼唱的旋律。”
对于那些希望自己尝试音乐生成人工智能工具的人来说,你会失望地听到谷歌“目前没有计划发布模型”。研究人员列举了“潜在的盗用创意内容”以及潜在的文化盗用或歪曲的风险。
然而,研究报告称,一个包含大约5500对音乐文本的公共数据集正在发布,谷歌表示,这可以帮助训练和评估其他基于音乐的人工智能。