OpenAI再次震惊世界……Sora抢先看


Author: Fireship

昨天,OpenAI 向世界推出了他们的最新创新,这确实令人兴奋。如果您已准备好应对生存危机,那就做好准备,因为您面临的是什么 见证的是人工智能的巨大飞跃。OpenAI 的 Sora 制作了长达一分钟的逼真视频,超出了所有人的预期。在今天的视频中,我们将探索这一开创性文本的功能 - 到视频模型,了解其底层机制,并认识到它给我们对人工智能技术的理解带来的巨大转变。

截至 2024 年 2 月 16 日,全世界见证了 Sora 的揭幕,Sora 的名字源自日语中的“天空”一词。 与之前的 AI 视频模型(例如稳定视频扩散)和私人产品(例如 Pika)不同,Sora 以其无与伦比的真实性和帧之间的凝聚力树立了新标准。 生成的视频可以通过文本描述或起始图像进行提示,以惊人的准确性将场景变为现实。

尽管 Sora 令人兴奋,但对这个强大模型的访问仍然受到限制。 滥用的可能性需要谨慎,而且 Sora 不太可能很快开源。 此外,Sora 生成的视频将包含 c2p 元数据,用于跟踪其来源和修改。

了解 Sora 背后的机制揭示了其运行所需的巨大计算能力。 该模型可能会利用大量 GPU 处理,最近请求为 GPU 采购提供 7 万亿美元资金就证明了这一点。 虽然这个数字令人惊讶,但它强调了有效扩展人工智能视频模型所需的大量资源。

Sora 作为扩散模型运行,类似于 DALL.E 和稳定扩散,逐渐将随机噪声细化为相干图像。 然而,Sora 引入了一种新颖的方法,通过标记视觉补丁而不是文本,允许可变分辨率和本机训练数据。

展望未来,Sora 承诺彻底改变视频编辑,提供对视觉内容前所未有的控制。 从实时改变背景到在《我的世界》等虚拟环境中模拟人工运动,可能性是无限的。 然而,尽管其能力非凡,Sora 的视频仍然表现出人工智能生成内容的微妙缺陷。 尽管如此,随着技术的不断发展,这些限制预计会逐渐减少。

总而言之,虽然 Sora 可能会引起恐惧和不确定的感觉,但它对视频制作未来的影响不容小觑。 当我们见证人类创造力与人工智能的融合时,我们踏上了重新定义想象力界限的旅程。 这是代码报告,感谢您的观看,我们下一篇见。