联系我们

4000 555 018
(7×24)
正睿服务器  >  新闻中心  >  业界资讯
新闻中心

王炸!OpenAI革命性视频生成模型发布

间隙填充
正睿科技  发布时间:2024-02-18 17:09:52  浏览数:102

OpenAI在视频生成技术领域取得了突破性的进展,其创新研发的端到端AI视频模型震撼亮相,一举改写了行业规则,使传统视频处理手段黯然失色。他们所发布的首支长达一分钟的AI合成视频作品,栩栩如生,充分展示了这项技术无与伦比的实力,这也标志着全球首个具备完整意义的“世界模型”在视频领域的革命性诞生。

2月15日,OpenAI发布了首款名为”Sora”的AI视频模型,其惊艳效果犹如一面魔镜,令网民们惊叹不已。当日,科技圈掀起了一场前所未有的热潮,仿佛一切都在疯狂加速——短短十几个小时内,OpenAI与谷歌接连抛出核弹级的研究成果,让国内熬夜围观的人群经历了一场彻夜过山车般的狂欢。

OpenAI突然推出了他们的首个文本驱动视频模型”Sora”。简单来说,AI视频技术即将开启时代新篇章!它不仅能根据文本指令创造出既逼真又充满想象力的场景,甚至还能连续生成时长达1分钟以上的超长视频,并以无缝衔接的方式一直延续至结尾部分。

相较于Runway Gen 2和Pika等工具还在努力突破数秒连续性的问题,OpenAI已在此领域树立了一个史诗级的里程碑。在这段一分钟的演示视频中,主角以及背景角色表现出惊人的一致性,镜头自由切换之间,人物动作几乎达到了神一般的稳定。

OpenAI的一项重大突破来源于其官方介绍的一种革命性方法:通过一次性输入模型多帧预测信息,有效解决了视频生成中的连贯性和一致性难题。这项技术的重要性和影响力显著,像Sam Altman这样的人物也高度关注和积极参与。他不仅在社交媒体上热切讨论,还鼓励网民提供输入提示词,并逐一将相应的视频输出。

Sora运用对语言深层次的理解力,能够精确解析用户的指令并把握这些元素在真实世界中的呈现方式。因此,由Sora创作的角色能展现出丰富的情感表达。其所生成的复杂场景不仅包含多个角色,还有特定的动作类型以及对物体与背景的详尽细致描述。比如下图中角色的瞳孔、睫毛乃至皮肤纹理都极其逼真,几乎察觉不到任何人工智能的痕迹。

那么从此刻起,视频与现实之间还有什么区别?!

并且,Sora能够在同一段视频中设计多个镜头,保持角色和视觉风格的高度统一性。以往,AI制作的视频往往局限于单一镜头的生产阶段。但随着OpenAI最新技术的进步,实现在镜头切换间的多角度一致性堪称奇迹!这种多镜头连续一致性的水准是当前第二代产品甚至Pika等同类技术暂时无法企及的……

基于以下提示,Sora呈现出一幅梦幻般的冬日东京景象。由无人机操控的摄像机跟随一对悠闲漫步的情侣穿梭于街头巷尾。左侧传来沿江道路车辆行驶的声音,右侧则是顾客在排排小店间穿行的画面。雪花飘落,樱花花瓣在风中与雪花共舞,共同装点着这场雪后东京繁华街头的美丽画卷。在这个场景中,Sora精心设计的多镜头转换流畅自然,无论从哪个角度观看,都能确保人物、场景及氛围的连贯和谐,创造出一种宛如身临其境的真实感。

Sora展现的能力已经超乎想象,完全超越了依靠原始工具进行手工创作的时代,将其他AI制作的视频远远抛在身后。令人惊奇的是,它似乎已经开始体现世界模型的基本要素——通过消化和理解海量的数据集,Sora以某种方式学习到了关于现实世界的众多物理规律。

在处理“一个短毛怪兽跪在一盏红蜡烛旁”的动画场景时,Sora创造了一个形象生动的角色,这个角色融合了皮克斯动画中的创意基因,仿佛结合了Furby、Gremlin以及《怪兽电力公司》中的大眼仔Sully的特点。最令人叹为观止的一点是,Sora对于皮毛材质物理属性的理解与表现达到了惊人的精确度,这一点甚至超过了当年制作《怪兽电力公司》时皮克斯团队所付出的巨大努力和技术攻关。

正如该项目的研究科学家Tim Brooks所说,“Sora不仅了解三维几何形状和一致性,而且这些知识并非预设程序的结果,而是通过观察大量数据自然习得的。”这意味着Sora在未经人工预先编程的情况下,就能精准地模拟出复杂的皮毛动态效果,这无疑标志着AI技术在理解和再现真实世界复杂性方面迈出了革命性的一步。

得益于DALL?E 3采用的扩散模型和GPT-4的Transformer引擎,Sora不仅能够按照特定要求生成视频内容,更展示出了对电影拍摄语法的自发性理解及独特的故事叙述才能。这种能力在它的故事讲述过程中得到了充分彰显。

例如,在一个以“由纸精心打造的五彩斑斓的鱼与海洋生物世界”为主题的视频项目中,项目研究员Bill Peebles指出,Sora通过其选择的镜头角度和剪辑节奏巧妙地推动了故事情节的发展。他解释说:“在这个视频中,实际上包含了多种摄像机转换镜头——这些镜头并非后期拼接而成,而是由模型无缝生成的。我们并没有特别指示它这样做,但它却能自动完成这一系列复杂的操作。”

然而SORA模型仍然存在不完美的地方。在模拟复杂场景的物理效果时可能会遇到挑战,比如无法实时反映出物体因互动而发生的改变。举个例子,如果视频情境中某个人物吃掉了部分饼干,在模型的呈现中,这块饼干可能仍然看起来是完整的。

读者可能会关心此类技术的安全性和伦理边界。在这方面,OpenAI早已未雨绸缪,不仅在Sora等模型的研发阶段就邀请了专门针对错误信息、仇恨言论及潜在偏见等问题的领域专家,对模型进行了严谨的对抗性测试,以增强其抵御不良内容的能力。

不仅如此,为了应对可能产生的误导性内容风险,OpenAI正在积极研发配套检测工具。例如,他们正构建一种视频来源识别分类器,能够精准判断一段视频是否由类似Sora这样的AI生成模型创作。

同时,在推进新产品部署的过程中,OpenAI巧妙地借鉴并强化了已经在DALL-E 3项目中实践过的严格安全措施。这些措施同样应用于Sora等新产品的安全管理体系中。

具体来说,在OpenAI的产品环境中,所有文本输入都会经过智能文本分类器的审核,一旦发现有违禁内容,如涉及极端暴力、色情、仇恨言论、未经授权的名人形象或是侵犯他人知识产权的请求,系统会自动拒绝执行。此外,OpenAI还进一步研发了一套高性能的图像分类技术,这套技术可以逐一分析生成视频的每一帧画面,在内容呈现给用户之前,确保其完全符合平台的使用策略和道德规范。

这些前沿的技术保障与安全机制不禁让人预见到,AI技术的发展将在革新用户体验的同时,也将带来更为安全可控的内容生成环境。

相关产品:

正睿GPU计算服务器      双路一百九十二核GPU计算服务器

  • 正睿合作伙伴
  • 社区
首页 | 注册 | 网站地图 | 通告 | 联系我们
CopyRight(C)2004-2022 Chongqing Zhengrui Technology Co.,Ltd. All rights reserved.
重庆正睿科技有限公司(C)版权所有 未经书面授权 不得转载、复制或建立镜像
渝ICP备11002339号-1  渝公网安备 50010702500475号