OpenAI再次震惊世界……Sora抢先看

Author: Fireship

昨天，OpenAI 向世界推出了他们的最新创新，这确实令人兴奋。如果您已准备好应对生存危机，那就做好准备，因为您面临的是什么见证的是人工智能的巨大飞跃。OpenAI 的 Sora 制作了长达一分钟的逼真视频，超出了所有人的预期。在今天的视频中，我们将探索这一开创性文本的功能 - 到视频模型，了解其底层机制，并认识到它给我们对人工智能技术的理解带来的巨大转变。

截至 2024 年 2 月 16 日，全世界见证了 Sora 的揭幕，Sora 的名字源自日语中的“天空”一词。与之前的 AI 视频模型（例如稳定视频扩散）和私人产品（例如 Pika）不同，Sora 以其无与伦比的真实性和帧之间的凝聚力树立了新标准。生成的视频可以通过文本描述或起始图像进行提示，以惊人的准确性将场景变为现实。

尽管 Sora 令人兴奋，但对这个强大模型的访问仍然受到限制。滥用的可能性需要谨慎，而且 Sora 不太可能很快开源。此外，Sora 生成的视频将包含 c2p 元数据，用于跟踪其来源和修改。

了解 Sora 背后的机制揭示了其运行所需的巨大计算能力。该模型可能会利用大量 GPU 处理，最近请求为 GPU 采购提供 7 万亿美元资金就证明了这一点。虽然这个数字令人惊讶，但它强调了有效扩展人工智能视频模型所需的大量资源。

Sora 作为扩散模型运行，类似于 DALL.E 和稳定扩散，逐渐将随机噪声细化为相干图像。然而，Sora 引入了一种新颖的方法，通过标记视觉补丁而不是文本，允许可变分辨率和本机训练数据。

展望未来，Sora 承诺彻底改变视频编辑，提供对视觉内容前所未有的控制。从实时改变背景到在《我的世界》等虚拟环境中模拟人工运动，可能性是无限的。然而，尽管其能力非凡，Sora 的视频仍然表现出人工智能生成内容的微妙缺陷。尽管如此，随着技术的不断发展，这些限制预计会逐渐减少。

总而言之，虽然 Sora 可能会引起恐惧和不确定的感觉，但它对视频制作未来的影响不容小觑。当我们见证人类创造力与人工智能的融合时，我们踏上了重新定义想象力界限的旅程。这是代码报告，感谢您的观看，我们下一篇见。