OpenAI在官网发布了最新的文生视频模型Sora。Sora不仅突破了现有文生视频模型10秒左右的连贯性局限,而且展示出了更精细的画质、多角度多镜头切换中保持一致性等能力。最重要的是,Sora较好地表现出了现实世界中的逻辑,比如在模型生成的两艘海盗船在咖啡杯内航行的视频中,咖啡的流动完全符合现实世界中的流体力学;比如一则宠物猫等待主人起床的视频中,宠物猫踩奶的动作、对主人鼻头的轻触都符合现实世界中动物的习性。

尽管出于安全性和测试验证等原因,Sora尚未开放给公众使用,但通过观察OpenAI发布的demo,不难发现Sora已经初步具备了理解现实世界运行规律的能力,即“涌现”的能力被成功得从大语言模型复制到了文生视频模型中。假以时日,人类或将很难区分现实世界和由AI生成的虚拟世界。除了为视频制作、电影剪辑、游戏设计等工作提升效率外,一个完全由数据驱动的数字世界或许已经近在咫尺。英伟达人工智能研究院首席科学家Jim Fan称“这是视频生成领域的GPT-3时刻”。360董事长周鸿祎称“Sora意味着AGI(通用人工智能)实现将从10年缩短到1年。”

尽管OpenAI在Sora的技术文档中并未公开所有模型细节,但我们可以通过其描述大致推测出,Sora的实现仍然依赖于OpenAI在大语言模型领域取得巨大成功的“大力出奇迹”思想,即通过大幅提升训练数据和参数规模实现视频精度和对现实世界物理关系的“涌现”。

相比GPT模型,Sora的成功之处在于为图像视频等多模态数据找到了适合Transformer架构的表征方式,从而将Scaling Law从语言模型复制到了图像视频模型。此外,Sora在训练时还借助了DALL·E3生成的高质量文本描述,在推理时借助了GPT对用户输入进行扩展,可谓“站在巨人肩膀上”更进一步。

对于应用而言,Sora生成的视频已经达到了大部分消费级场景的使用要求,将为短视频创作等创意产业带来繁荣。随着模型升级,预计也将对电影、游戏等行业的制作效率带来大幅提升。尽管Sora的商业化时间表还未披露,但ChatGPT之后又一风靡全球的AI杀手级应用无疑已经提上了日程。此外,Sora的推出强化了产业界对于实现通用人工智能的信心,预计全球科技领域的巨头将持续向AI投入资源,加速产业发展进程。

对于算力而言,由于OpenAI并未公布模型架构的细节,很难推测训练Sora具体消耗了多少算力,但既然Scaling Law,或者说“大力出奇迹”依然是当前AI模型实现“涌现”的黄金法则,就意味着对算力的需求仍然没有看到“拐点”。如果Sora的训练确实使用了合成数据,意味着可供训练的数据远未耗尽,人类对AI模型参数和训练数据的提升还远远没有达到瓶颈。甚至随着AI模型合成数据能力的增强,模型推理结果本身就可以作为训练的一部分,从而实现AI的自我迭代。此外,视频生成推理需要更大的VRAM或带宽,如果Sora开放使用后如期推动各类视频创作的繁荣,当前电信和数通网络的带宽都需要大幅升级。作为广义算力的一部分,网络设备的需求也将爆发式增长。

对于投资而言,Sora最大的意义在于证明了AI产业的创新浪潮还远未停歇。Sora的“前辈”ChatGPT发布以来,芯片龙头英伟达、博通股价分别上涨超300%、130%,软件应用龙头微软上涨超60%。Sora作为多模态大模型,向公众开放后预计对算力需求更大、对软件应用成长空间提升更显著,有望进一步提升相关产业价值。

当前中美AI产业的发展存在一定的差距,但从投资的角度来看,当前A股AI指数在回调后可能具备更好的赔率。当前美国AI产业的发展领先于国内,站在投资的角度则主要体现在部分算力硬件环节开始持续上修业绩指引。

而A股AI指数在经过年初市场整体风险偏好收缩带动的调整后,当前位置已经低于2022年末ChatGPT发布之前,表明市场对于短期悲观因素可能已经定价,而对长期成长空间可能存在估计不足。

AI作为颠覆式创新,在带来新的成长机会的同时,也将打破细分赛道既有玩家建立的壁垒。因此在各类应用厂商的产品大多处于测试或商业化早期的阶段,行业竞争格局尚不明朗,通过指数分散投资AI能够帮助投资者在享受产业发展红利的同时更好分散风险。