Sora成功是站在谷歌肩膀上吗？业内：关键是人才、算力和数据的堆砌

近日，AI（人工智能）新锐巨头OpenAI推出文生视频模型Sora，掀起了全球范围内的热烈讨论。

由于在AI生成视频的时长上成功突破到一分钟，再加上演示视频的高度逼真和高质量，Sora立刻引起了轰动，并引发外界的种种猜测：能在发布ChatGPT不到两年后就推出Sora，OpenAI是否“藏了一手”？表现惊艳的Sora是否已经具有世界模型的特点？

不过，OpenAI尚未宣布Sora对公众正式开放的日期，目前也只向安全团队、一些视觉艺术家、设计师和电影制作人开放了Sora的使用权限。除了内部人士不断放出的演示片段外，OpenAI还在Sora的官网上放出了其技术报告。

首先，与GPT模型类似，Sora使用Transformer架构，这被许多研究者视为其强大能力背后的主要功臣。

本质上，Sora和Pika、Runway等文生视频模型采用了相似的底层模型，即Diffusion扩散模型。不同之处在于，Sora把其中的实现逻辑进行了变化，将U-Net架构替换成了Transformer架构。

北京邮电大学智能交互设计专业副教授谭剑为澎湃新闻记者介绍，与其他AI模型架构相比，Transformer架构有两大理论优势：“它的核心能力是能自动构建不同维度、不同层级的知识网络或信息网络，也就是一张无缝的思维导图……权重关联机制（attention机制）也是它核心能力的另一种体现，就是它会根据任何数据的上下文，来理解相关的高低维度信息。”

谭剑强调，要充分发挥Transformer架构的核心能力，一个必要条件就是输入数据足够多、维度足够大。

一位AI大模型从业人士告诉澎湃新闻记者，Sora的主要技术思路是“用视觉块编码（Visual Patch）的方式，把不同格式的视频进行统一编码，然后用Transformer架构进行训练，并引入类似Diffusion的Unet方式在降维和升维的过程中做加噪和去噪”。

通过细节上的设计，Sora解决了“闪烁”（帧间细节跳变）的问题，还能直接生成高分辨率（1080p）的图像、长达60秒的视频，说明“训练的序列也比较长，训练时候的窗口至少也有五秒”。

不过，目前看来，OpenAI的Sora报告中依然藏有许多谜团。

浙江大学百人计划研究员、博士生导师赵俊博对澎湃新闻记者表示，Sora所采用的扩散Transformer架构“可能是成功的关键之一”，但OpenAI目前放出的内容基本上也没有涉及更多的技术细节：“从第一性原理出发，其实我们目前对于Transformer神经网络架构的理解是非常不够的，尤其是为什么这个模型在scale up（扩大规模）之后能有如此大的魔力。”

此外，赵俊博也强调，数据是一个巨大的问题。对于Sora采用了怎样的数据进行训练，圈内依然众说纷纭，推测可能是运用了游戏引擎生成的大规模数据：“可能是游戏引擎里面吐出来这种数据，但是它这个数据到底是怎么收集、如何生产加工，最后如何喂到Sora里面进行管线化的预训练，我们确实不知道。”

那么，Sora的出现会给AI业界和学界带来怎样的影响？

赵俊博表示，因为Sora在技术上仍有许多有待验证的地方，应该“让子弹再飞一会儿”：“Sora确实会对AI视频领域内的研究者和竞品产生很大冲击，但那毕竟只是一小部分人。目前从生成模型的应用层面看，可控性依然是个很大的问题......所以说如果要讨论产业冲击，还是要搞清楚玩家是谁，什么场景，解决什么痛点和需求，这些产业化的落地思维在这里也是一样的。”

谭剑提到，OpenAI已经用ChatGPT和Sora充分验证了纳什嵌入定律。所谓纳什嵌入定律，简单来说，就是指高维信息世界一定能无缝兼容低维世界，用口语来表达就是“降维打击”：“虽然这种高维AI模型的数据和硬件等门槛很高，但已经有了第一个跨越的公司，那么后面还会有更多团体可能成功，我对这一点保持乐观。”

值得注意的是，就在OpenAI于2月15日发布Sora的几小时前，谷歌也发布了旗下大模型Gemini的1.5版本，其中首个登场的多模态通用模型Gemini 1.5 Pro，把稳定处理上下文的上限扩大至100万tokens。然而，Gemini 1.5一出场就被Sora抢尽了风头。

再加上，OpenAI在Sora报告中提到的多篇核心论文都是由谷歌科研团队提出的，也由此引发了对于这两家企业“恩怨情仇”的调侃，以及OpenAI是“站在谷歌肩膀上”的说法。

对此，赵俊博认为，理论的相互分享虽然很重要，但是现代科技的发展环境下，单打独斗、“一人成英雄”的时代已经结束了：“关键是人才团队、算力和数据的堆砌，以及时间上的积累，光靠一个idea就能实现一个这么惊艳的系统已经不现实了，把它当成一个‘大装置’来看的话，里面‘工艺’的探索和形成是最为关键的。”

最后，对于Sora的出现是否和AGI（通用人工智能）有关联，赵俊博几天前也在朋友圈撰文表示：“我反对很多自媒体把这个技术类比在AGI上面，我们距离AGI还差得远……我觉得一个世界模型需要有能力去输出动作，输出对未来的预测，输出对当前所处状态的判断。Sora大概率是学到了一些世界运转的模式，但是否具备其他上述能力我们不知道。但是它的embedding（嵌入）如果有一天能开出来，或许我们能知道更多。”

【知识产权声明】

【免责声明】

【媒体合作】