马克·扎克伯格的Meta并不是唯一一家公司发展中一个人工智能驱动的程序,可以从文本输入中生成视频。谷歌也在做一个。
周三,该公司人工智能实验室谷歌Brain的研究人员,首次亮相(在一个新窗口中打开)画像的视频(在一个新窗口中打开)该程序可以根据文本输入创建逼真的视频剪辑。系统扩展了谷歌的原始版本画像(在一个新窗口中打开)通过将静态图像移动到动态图像来进行编程,从而产生在每一帧中基本保持一致的创造性视频。
谷歌的研究人员说:“我们发现Imagen Video不仅能够生成高保真的视频,而且具有高度的可控性和世界知识,包括能够生成各种艺术风格的视频和文本动画,并具有3D对象理解能力。写了(在一个新窗口中打开)在一篇论文。
Imagen Video可以创建5.3秒,1280 × 768分辨率的视频,每秒24帧。谷歌的研究人员通过训练计算机模型来识别视频和静态图像,开发了这个程序,这些视频和静态图像已经贴上了文字描述的标签。Imagen Video在给出文本提示时,会尝试以视频的形式复制图像。
论文补充说:“虽然对自然视频数据的训练只能使模型学习自然环境中的动态,但通过对图像的训练,模型可以学习不同的图像风格(如素描、绘画等)。”“因此,这种联合训练使模型能够生成不同风格的有趣视频动态。”
总的来说,Imagen Video是在一个“内部数据集”上进行训练的,该数据集由1400万视频和6000万张静止图像组成,以及LAION-400M开放数据集中的另外4亿张图像。研究人员发现,该程序足够聪明,可以理解三维物体和设置,“因为它能够生成物体旋转的视频,同时大致保留结构。”
也就是说,结果可能远非完美。谷歌的研究人员上传了一些该程序创建的视频,如你所见,它将难以准确渲染复杂的动作,如熊猫吃竹子或海军舰艇在海上移动。
不过,Imagen Video显然可以开启一个全新的视频创作时代。该程序还可以在不到一分钟的时间内生成视频片段。但目前,谷歌的研究人员还没有向公众公布这项技术。该团队已经增加了防范措施,以防止Imagen Video制作“虚假、仇恨、露相或有害的内容”。但研究人员仍然担心这种技术会助长刻板印象,因为它是在有限的视频和图像数据集上训练的。
“虽然我们的内部测试表明,很多露骨和暴力内容可以被过滤掉,但仍然存在社会偏见和刻板印象,难以检测和过滤。我们已经决定不发布Imagen视频模型及其源代码,直到这些担忧得到缓解。”研究人员写道。
另一方面,Meta计划在完成更多测试后,最终向公众发布自己的文本到视频生成器。然而,所有视频创建与该程序将包含水印。