王炸！OpenAI革命性视频生成模型发布

正睿科技发布时间：2024-02-18 17:09:52 浏览数：102

OpenAI在视频生成技术领域取得了突破性的进展，其创新研发的端到端AI视频模型震撼亮相，一举改写了行业规则，使传统视频处理手段黯然失色。他们所发布的首支长达一分钟的AI合成视频作品，栩栩如生，充分展示了这项技术无与伦比的实力，这也标志着全球首个具备完整意义的“世界模型”在视频领域的革命性诞生。

2月15日，OpenAI发布了首款名为”Sora”的AI视频模型，其惊艳效果犹如一面魔镜，令网民们惊叹不已。当日，科技圈掀起了一场前所未有的热潮，仿佛一切都在疯狂加速——短短十几个小时内，OpenAI与谷歌接连抛出核弹级的研究成果，让国内熬夜围观的人群经历了一场彻夜过山车般的狂欢。

OpenAI突然推出了他们的首个文本驱动视频模型”Sora”。简单来说，AI视频技术即将开启时代新篇章！它不仅能根据文本指令创造出既逼真又充满想象力的场景，甚至还能连续生成时长达1分钟以上的超长视频，并以无缝衔接的方式一直延续至结尾部分。

相较于Runway Gen 2和Pika等工具还在努力突破数秒连续性的问题，OpenAI已在此领域树立了一个史诗级的里程碑。在这段一分钟的演示视频中，主角以及背景角色表现出惊人的一致性，镜头自由切换之间，人物动作几乎达到了神一般的稳定。

OpenAI的一项重大突破来源于其官方介绍的一种革命性方法：通过一次性输入模型多帧预测信息，有效解决了视频生成中的连贯性和一致性难题。这项技术的重要性和影响力显著，像Sam Altman这样的人物也高度关注和积极参与。他不仅在社交媒体上热切讨论，还鼓励网民提供输入提示词，并逐一将相应的视频输出。

Sora运用对语言深层次的理解力，能够精确解析用户的指令并把握这些元素在真实世界中的呈现方式。因此，由Sora创作的角色能展现出丰富的情感表达。其所生成的复杂场景不仅包含多个角色，还有特定的动作类型以及对物体与背景的详尽细致描述。比如下图中角色的瞳孔、睫毛乃至皮肤纹理都极其逼真，几乎察觉不到任何人工智能的痕迹。

那么从此刻起，视频与现实之间还有什么区别？！

并且，Sora能够在同一段视频中设计多个镜头，保持角色和视觉风格的高度统一性。以往，AI制作的视频往往局限于单一镜头的生产阶段。但随着OpenAI最新技术的进步，实现在镜头切换间的多角度一致性堪称奇迹！这种多镜头连续一致性的水准是当前第二代产品甚至Pika等同类技术暂时无法企及的……

基于以下提示，Sora呈现出一幅梦幻般的冬日东京景象。由无人机操控的摄像机跟随一对悠闲漫步的情侣穿梭于街头巷尾。左侧传来沿江道路车辆行驶的声音，右侧则是顾客在排排小店间穿行的画面。雪花飘落，樱花花瓣在风中与雪花共舞，共同装点着这场雪后东京繁华街头的美丽画卷。在这个场景中，Sora精心设计的多镜头转换流畅自然，无论从哪个角度观看，都能确保人物、场景及氛围的连贯和谐，创造出一种宛如身临其境的真实感。

Sora展现的能力已经超乎想象，完全超越了依靠原始工具进行手工创作的时代，将其他AI制作的视频远远抛在身后。令人惊奇的是，它似乎已经开始体现世界模型的基本要素——通过消化和理解海量的数据集，Sora以某种方式学习到了关于现实世界的众多物理规律。

在处理“一个短毛怪兽跪在一盏红蜡烛旁”的动画场景时，Sora创造了一个形象生动的角色，这个角色融合了皮克斯动画中的创意基因，仿佛结合了Furby、Gremlin以及《怪兽电力公司》中的大眼仔Sully的特点。最令人叹为观止的一点是，Sora对于皮毛材质物理属性的理解与表现达到了惊人的精确度，这一点甚至超过了当年制作《怪兽电力公司》时皮克斯团队所付出的巨大努力和技术攻关。

正如该项目的研究科学家Tim Brooks所说，“Sora不仅了解三维几何形状和一致性，而且这些知识并非预设程序的结果，而是通过观察大量数据自然习得的。”这意味着Sora在未经人工预先编程的情况下，就能精准地模拟出复杂的皮毛动态效果，这无疑标志着AI技术在理解和再现真实世界复杂性方面迈出了革命性的一步。

得益于DALL?E 3采用的扩散模型和GPT-4的Transformer引擎，Sora不仅能够按照特定要求生成视频内容，更展示出了对电影拍摄语法的自发性理解及独特的故事叙述才能。这种能力在它的故事讲述过程中得到了充分彰显。

例如，在一个以“由纸精心打造的五彩斑斓的鱼与海洋生物世界”为主题的视频项目中，项目研究员Bill Peebles指出，Sora通过其选择的镜头角度和剪辑节奏巧妙地推动了故事情节的发展。他解释说：“在这个视频中，实际上包含了多种摄像机转换镜头——这些镜头并非后期拼接而成，而是由模型无缝生成的。我们并没有特别指示它这样做，但它却能自动完成这一系列复杂的操作。”

然而SORA模型仍然存在不完美的地方。在模拟复杂场景的物理效果时可能会遇到挑战，比如无法实时反映出物体因互动而发生的改变。举个例子，如果视频情境中某个人物吃掉了部分饼干，在模型的呈现中，这块饼干可能仍然看起来是完整的。

读者可能会关心此类技术的安全性和伦理边界。在这方面，OpenAI早已未雨绸缪，不仅在Sora等模型的研发阶段就邀请了专门针对错误信息、仇恨言论及潜在偏见等问题的领域专家，对模型进行了严谨的对抗性测试，以增强其抵御不良内容的能力。

不仅如此，为了应对可能产生的误导性内容风险，OpenAI正在积极研发配套检测工具。例如，他们正构建一种视频来源识别分类器，能够精准判断一段视频是否由类似Sora这样的AI生成模型创作。

同时，在推进新产品部署的过程中，OpenAI巧妙地借鉴并强化了已经在DALL-E 3项目中实践过的严格安全措施。这些措施同样应用于Sora等新产品的安全管理体系中。

具体来说，在OpenAI的产品环境中，所有文本输入都会经过智能文本分类器的审核，一旦发现有违禁内容，如涉及极端暴力、色情、仇恨言论、未经授权的名人形象或是侵犯他人知识产权的请求，系统会自动拒绝执行。此外，OpenAI还进一步研发了一套高性能的图像分类技术，这套技术可以逐一分析生成视频的每一帧画面，在内容呈现给用户之前，确保其完全符合平台的使用策略和道德规范。

这些前沿的技术保障与安全机制不禁让人预见到，AI技术的发展将在革新用户体验的同时，也将带来更为安全可控的内容生成环境。

相关产品：

双路一百九十二核GPU计算服务器

联系我们

4000 555 018

(7×24)

王炸！OpenAI革命性视频生成模型发布