【观察】Sora一夜刷屏，“模拟世界里程碑”距世界模型有多远？

2024年02月19日来源：文汇网

导语：Sora带给业界最大的启发是DIT模型，即以Transformer为主干的扩散模型。尽管它们已经是非常成熟的技术，但之前很少有人将两者放在一起。

　　（本文原标题为：“解码”一夜刷屏的Sora，“世界模型”看出更多端倪）

　　继一年多前发布ChatGPT在全球引发AI（人工智能）狂飙之后，全球AI领军企业OpenAI又向业界扔下了一枚新“王炸”——AI文生视频模型Sora，这距离谷歌发布多模态模型Gemini1.5仅过去了几个小时。

　　在Gemini1.5的演示中，机器可以“读懂”人类的各种举动：当测试员拿出一张纸，Gemini1.5立刻回答“你拿出了一张纸”；而Sora可根据简短的文字提示生成一段长达一分钟的高清视频，其中包含细腻复杂的场景、生动的角色表情以及复杂的镜头运动。上海人工智能研究院高级分析师方帅表示：“两个最新发布的AI模型表明，机器在理解人类语言和文字上更近了一步。”

　　OpenAI在关于Sora的详细技术报告中表示，Sora对自然语言的理解能力很强。OpenAI将其视为能够理解和模拟现实世界的模型的基础，相信其能力是实现AGI（通用人工智能）的重要里程碑。

　　AI“文生视频”如何改变未来？正如业界专家所说，Sora的影响往小了说是文生视频技术突破了一个数量级，可直接应用于短视频、广告等行业；往大了说，它提供了理解、重建和模拟这个世界的可能性。

　　“缺乏新颖性”的技术如何成为“王炸”？

　　“很震撼，却也在意料之中。”在多年从事计算机视觉研究的上海交通大学人工智能研究院副教授王韫博看来，Sora就是用人类已有的“零件”拼装出了一辆性能超高的汽车——从技术角度看，并不新鲜；但从结果来看，效果炸裂。

　　Sora带给业界最大的启发是DIT模型，即以Transformer为主干的扩散模型。尽管它们已经是非常成熟的技术，但之前很少有人将两者放在一起。

　　Transformer架构是产生长视频的基础，它之前被广泛用于大语言模型训练。受到训练大语言模型的Token（文本单元）启发，此次OpenAI团队引入了Patch（视觉块嵌入代码）的概念，它能对像素、尺寸等各不相同的视频进行编码，在潜空间里将Patch的时空数据整合在一起进行训练，再解码成为一个高清视频。

　　值得一提的是，Meta首席AI科学家杨立昆称，他的前同事、纽约大学助理教授谢赛宁和他在伯克利的学生、现任OpenAI工程师的William Peebles前年合著的关于DIT的论文，是Sora的基础。戏谑的是，这篇论文曾因“缺乏新颖性”而被计算机视觉顶级学术会议拒收。

　　被拒收的论文何以成就新“王炸”？王韫博认为，这与OpenAI的工程能力密不可分。在公开发布的技术信息中，OpenAI坦言，Sora使用了大规模训练和超大数据集。谢赛宁推测，整个Sora模型可能有30亿个参数。

　　在攻破语言和视频两个堡垒的同时，OpenAI公布筹资7万亿美元建立芯片帝国计划，这笔巨资相当于美国GDP的1/4。业界人士评价，这些或许将帮助OpenAI确立其在算法与算力上的AI霸主地位，进而向AGI发起最后挑战。

　　“模拟世界里程碑”距世界模型有多远？

　　Sora展现出的视频生成能力让网友惊呼“逆天”，而专业人士则从模型中看出了更多端倪。

　　英伟达人工智能研究院首席研究科学家吉姆·范在社交平台上表示，“如果你还是把Sora看成DALL-E那样的生成式玩具，还是好好想想吧，这是一个数据驱动的物理引擎。它是对许多世界的模拟，无论是真实的还是幻想的。”

　　“世界模型”“世界模拟器”是Sora的重要标签，毕竟Sora技术报告的标题就是“作为世界模拟器的视觉生成模型”。

　　王韫博表示，因为机器与真实世界交互的成本非常高，所以科学家希望能够在虚拟世界中建立一个与现实世界物理规则相同的模型，方便机器“试错”。有意思的是，按照“人工智能之父”艾伦·图灵提出的具身智能概念，想要理解物理世界的法则，就必须有像人一样的身体与世界交互。但Sora带来了惊喜：据OpenAI科学家提姆·布鲁克斯透露，没通过人类预先设定，Sora就自己通过“观察”大量数据，自然而然地学会了关于3D几何形状和一致性的知识。

　　而Sora被人诟病最多的不足之处，也在对物理规则的理解上。比如，在展示老奶奶吹蜡烛的视频中，蜡烛并没有随风熄灭；在另一段玻璃杯从空中坠落的视频中，玻璃没有碎，里面的水已经流出来了。对此，OpenAI也坦言，目前Sora还难以准确模拟复杂场景的物理原理，可能无法理解因果关系。

　　“Sora对真实世界的模拟还有很多提升空间，就目前的展示内容来看，并不意味着它已经‘读懂’了物理规律。”王韫博说，因为人们并不知道究竟是模型建立了真实世界的法则，还是解码能力比较强大。

　　尽管Sora距离世界模型还有很长距离，但它证明了一点，即机器可以通过“投喂数据”推算出一些物理世界的规则。毫无疑问，它是机器模拟现实世界的一个里程碑。

　　Sora的“最佳试炼场”或将在元宇宙？

　　许多人认为，Sora横空出世，影视行业受到的影响将首当其冲。将来，影视剧制作的门槛会将会大大降低，只要心里有故事，就可借助强大的AI工具进行创作。

　　但方帅却并不这样认为。在他看来，Sora确实有快速将想法变成视频的能力，但其消耗的成本并不低，而且相比文字，广告、短视频、电影等作品具有更强烈的个人风格，版权保护也更加严格，Sora生成内容的版权如何界定，值得商榷。

　　做了20年影视导演的陈坤则表示，导演的目标不仅仅是一场戏里的灯光或布景。借助Sora这样的工具，将灯光、布景、群演等“简单步骤”交给AI完成，制作一部电影的时间和资金可能只需以前的1/10。

　　“Sora特别适合制作那些在现实中难以拍摄、对想象力要求特别高的内容，其最佳应用场所是元宇宙。”方帅说。Sora展示了一段特效视频：两艘帆船在咖啡杯中的“泡沫海面”上战斗。通常，这样的视频拍摄需要用到特殊技巧，现在只需要输入一段充满想象力的文字。

　　苹果公司或许是最盼望Sora能够大放异彩的科技企业之一。作为元宇宙硬件——混合现实（MR）头显Vision Pro的提供方，苹果亟需一款“杀手级应用”，而这依赖于海量创作者。Sora可与Vision Pro上的时空计算相匹配，极大降低创作门槛，有望引入大量创作者，让人类脑海中的想象力变成视频产品。

　　“短视频行业可能会迎来另一个发展高峰，收获的可能不是那些会拍视频的人，而是拥有好的审美和无穷想象力的人。”方帅说。

　　一镜到底超长视频生成意味着什么？

　　在Sora爆火之前，全球最火的两家AI视频公司是Runway和Pika，单单是Runway的上一轮融资就拿了1亿多美元。但两家公司的创始人在对外预测2024年的时候，都说有一个核心目标是希望能生成15秒的流畅视频。因为，2023年大部分文生视频长度都只有4-6秒，所以他们都把15秒视频作为一个里程碑。

　　没想到一夜之间，Sora一下子将门槛提高到60秒。除了有可能颠覆影视、广告、教育、游戏等行业，如果我们将目光放得更长远，它还将带带来什么？

　　“如果Sora对真实世界的物理规则掌握得足够好的话，它可以预测未来。”王韫博说，他在清华读书时，曾参与过一个用视频预测极端天气的项目，方法是通过数字孪生预测未来的雷达图像走势。“如果可以将Sora与物理约束方法结合，或许有希望大幅提升预测的精度。”另外，视频预测还可以用于流体模拟、刚体模拟等各个领域。

　　当然，尽管Sora是一次非常重大的飞跃，但“硬币有两面”，它也存在被滥用的可能。当“懂物理”的生成视频延长到一分钟乃至更长时间，人们看到的东西或许无法作为判断的依据，“眼见为实”也将成为过去式。对此，“钢铁侠”马斯克也对人类未来表达了担忧。

　　针对业界的担忧，美国联邦贸易委员会（FTC）2月15日提出了禁止使用AI工具冒充个人的规则。FTC表示，它正在提议修改一项已经禁止冒充企业或政府机构的规则，将保护范围扩大到所有个人。OpenAI内部仍在开展模型伦理侧的对抗性测试，比如错误信息、仇恨内容、偏见内容、色情暴力等，会在文本输入时被拒绝。

　　无论如何，AGI这一“潘多拉魔盒”正在被打开，人们或许应该尽快学会“虚实之间”的生存之道。

【责任编辑：王熙雁】

有线	广电总局	中国广电	全国一网	5G
超高清	资本	人事	工信部	融媒体
700M	IPTV	OTT	智能电视	电视台