为什么这么牛大佬拆解Sora工作原理

2024-2-21 08:03 PM| 发布者: 瘋子拿把枪| 查看: 280| 评论: 0

Sora是一款独特的视频生成工具，其工作原理深入浅出，值得我们深入了解。something new/old创始人brett goldstein在X上给大家拆解了Sora工作原理，通俗易懂。

Sora的工作原理结合了扩散模型和Transformer架构。扩散模型从噪声开始，逐渐精细化到所需的视频。而Transformer架构则负责处理连续的视频帧，确保视频中的动作流畅自然。

Sora的独特之处在于其处理视频生成的方法。它不是直接将文本转换为视频帧，而是依赖于所谓的“空间时间补丁”。这种方法不直接将文本转换为视频帧，而是处理空间（发生的事情）和时间(何时发生)的快照。这可以看作是微观视频拼图的每一小块。

时空立方体:

通过这种方式，Sora将视频视为一个包含空间和时间维度的巨大立方体，然后再将其切割成更小的立方体，每个立方体代表空间和时间的片段。

剖析描述并确定了核心要素:

• 物体（盛开的花朵、阳光普照的窗台）

• 行动（随着时间的推移而增长）

• 位置（郊区环境）

• 甚至艺术风格（定格动画美学）

为了能够将这些补丁有意义地组合成一个连贯的视频，Sora利用了其内部的知识图谱。这些知识图谱包含了关于物理世界、对象如何相互作用，甚至包括不同艺术风格的信息。借助这些知识，Sora能够理解例如一朵花如何逐渐开放、如何与阳光互动以及如何保持停动画风格等复杂过程。

在视频生成的下一阶段，扩散模型开始对每个嘈杂、抽象的补丁进行处理，逐渐精细化，直至最终呈现出清晰的图像。而Transformer架构则负责分析时间跨度上补丁之间的关系，确保视频中的动作流畅自然，停动画风格在整个视频序列中保持一致。

尽管Sora能够执行各种与视频相关的任务，并展现出惊人的视频生成能力，但仍有一些挑战需要克服。例如，它在模拟一些基础物理互动的精确性方面还有待提高，有时会产生不自然的效果，如人物的手势看起来不够真实。尽管如此，Sora在视频生成技术方面展示了巨大的潜力，为未来的人工智能应用开辟了新的可能性。

上一篇：习近平的豪赌，恐是压倒中国金融的最后一根稻草下一篇：华人移民二代高学历收入还是比不上白人

		自动登录	找回密码
密码			立即注册

相关分类