当前位置: 首页 > 社科普及 > 科普知识
文字直接生成视频!爆火的Sora,是何方神圣?
发布时间:2024-02-26 16:37 信息来源:科普中国、果壳、新闻联播
【字体: 打印本页 关闭窗口

  近日,又一逆天AI模型杀入人类江湖。

  有人惊呼“炸裂”“史诗级”,有人嚷嚷“行业变天,人类下岗”,还有人期待是不是输入《三体》就能出片了……这个新文本转视频模型就叫:Sora。

图片

  这段场景逼真、氛围浓厚的多机位短视频,由新文本转视频模型Sora生成。

  这款由美国开放人工智能研究中心Open AI发布的模型,炸裂到啥程度呢?

  就你随意编辑一串文字,就能生成一个以假乱真的纯AI原创视频。在一些样片里,视频中的物体运动轨迹自然,画面清晰、顺畅,它还能够自己切换镜头,甚至给出特写……

  嗯,Sora是如何生成这样的视频的呢?它真的无所不能吗,它会抢走人类的饭碗吗?


属于AI图、AI视频的时间线

  先来理一把,把我们惊晕的AI生成图片模型、AI生成视频模型的时间线。

  2022年下半年,Midjourney、Stable Diffusion之类的应用,已经可以根据文本提示词生成对应的图片。

  2023年9月,GPT4.0让我们能够用聊天化的方式生成、修改图片。

  至于AI生成视频模型,Sora发布之前的主流AI生成视频时长只能做到4-16秒,还“卡成PPT”,而Sora直接顺畅到了60秒。


Sora的视频创作能力有多强大?

  首先,按照官方口径,Sora能够根据提示词生成出高质量的图片和视频,并且能够对视频进行向前或者向后的拓展。

图片

这三个视频开头最终都会走向同一个结尾

图片截取自:Open AI官网

  Sora不仅可以根据文本生成视频,也可以直接输入图片或者视频,对图片和视频进行编辑调整。

  除了第一眼好之外,它还有一些惊人本领。

  比如,它可以跟随着对象移动镜头,并且在移动镜头转换角度的时候,依然能保持周围景象的合理、完整。

  比如,多机位。比如,自然融合两种完全不相干的场景。

  甚至还可以将图片转成动态视频,而且还不是目前流行的“小动物跳舞”呈现的粗糙效果:

图片

Sora生成,图源果壳


如此逆天,Sora是如何做到的?

  Open AI发布了一份Sora的技术报告,在报告中提到“Sora是一个扩散模型”。

  扩散模型本身很复杂,怎么理解呢?举个例子,假如你现在有一张狗狗的照片,通过一步步给这张照片增加噪点,就能让它变得越来越模糊,最终会变成一堆噪点。

图片

添加噪声与去除噪声,图源科普中国

  反过来,一步步去除噪点,也能把它还原成目标图片——扩散模型的关键就是学会逆向去除噪点。

  此外,在以往技术范式之上,Sora还做出了新东西,比如,不仅可以理解用户在提示中提出的要求,还能理解它们在物理世界中的存在方式。

  这么强!那它的视频模型的训练应该很烧算力吧?

  没错,大概一周前,Open AI宣布启动“造芯”计划,因为目前Open AI每天生成约1000亿个单词,需要大量的GPU芯片进行训练计算。

  他们希望筹得7万亿美元!

  相当于全球GDP的10%,等同于2.5个微软、3.75个谷歌、4个英伟达、7个Meta,以及11.5个特斯拉的市值。


Sora安全吗?它真的没有缺陷吗?

  这样的技术会不会被用来伪造视频,甚至被用来在法庭上作伪证?

  很多人考虑到了安全问题。Open AI也考虑到了。所以,在确保它不会被用来做坏事之前,Sora不会向大众开放。

  另外,虽然Sora展现出了强大的能力,但现阶段它还不够完美。除了专业人士的评价,Sora的技术报告也承认,现阶段Sora生成的视频存在一些缺陷。比如下面(图左),它让考古工作者挖出了一个现代工业文明才有的塑料椅;(图右)这个玻璃杯破碎的过程也不那么“科学”,杯子还没裂,液体就流出来了……

图片

图片

  再比如下面这个Sara生成的视频,不需要人类,别的人工智能就能看出它是个“假视频”,判别理由是:

① 樱花一般在春天开放,那时不下雪;

② 雪下得太均匀了;

③ 虽然是下雪天,但人穿得很单薄。

图片

  至于,把整本《三体》输进去,能出片吗?

  嗯,目前的Sora虽然有多机位效果,但都是单一情节、单一镜头。

  而《三体》有多人视角,叙事复杂,靠AI生成一条龙搞定并不现实。据影视行业从业者的观点,目前AI生成虽然高效,但可控性不够,目前它们主要用在 demo制作、概念设计、分镜编排等环节。


Sora是否会代替人类视频工作者?

  可以肯定的是,Sora的出现可能会威胁一些动画素材的制作者。

  今年1月,《好莱坞报道》进行了一项针对300名娱乐行业领导者的调查,有3/4受访者表示AI会减少未来的工作岗位,未来3年内大约会有20多万个职位受到影响。而Sora可能会加重这一影响。

图片

  不少人高呼影视行业变天了,有人甚至把好莱坞改成了上面这样的SoraWood。

  但是,Sora们带给我们的真的只有压力吗?

  其实,每次新兴技术的出现在带来威胁的同时,不也是带来了新机会嘛。包括Sora在内的视频生成AI毕竟只是工具,视频创意来源还是需要人类提供。