微立顶科技

新闻资讯

创新 服务 价值

  Sora专家会议:模型技术、算力、应用分析(真假自辩)

发布日期:2024/2/20 12:26:55      浏览量:

Sora专家会议:模型技术、算力、应用分析(真假自辩)

1.技术原理与Sora模型影响深度剖析
-技术核心:OpenAl新近发布的"Sora"模型沿用了Diffusion与Transformer架构,结构上并无显著变化。
其创新点在于整合实时事件模拟和对初始文本的深层次运用,从而具备模拟现实世界事件的能力。然
而,关于该模型的实际表现,当前尚缺乏充足的证据支持,需待大规模公开测试后才能做出确切评
估。
-运行机制概述Sora首先将视频内容转化为基本视觉元素(patches),进而运用自身强大的语言模型能力
进行sequence-to-sequence处理。在此过程中,包括了视频数据降维、随机噪声注入等步骤,最终生
成高质量视频。值得注意的是,该模型训练输入不受特定格式限制,能吸收各类视频数据以学习连续
性,并通过将视觉信息转化为序列数据,有效应用seq2seq模型。
-成效关键因素:Sora模型可能得益于OpenAl提供的高质量训练数据、独特的模型架构设计以及大量的
计算资源投入,这些可能是其表现出色的核心驱动力。尽管如此,要判断Sora是否真正理解和掌握了
视频中物理世界的内在规律,还需进一步观察和验证,毕竟相较于真正的世界模拟器,目前所展现的
仅是表层效果。

2.训练素材与算力需求解析
-训练数据来源:据推测,在投资者会议上提及的Sora模型可能使用了大量高质量虚拟数据作为训练素
材,旨在让模型在真实视频与虚拟引擎合成数据之间进行差异学习,以实现更逼真的视频生成效果。
-为算力及参数量考量:虽然具体信息有限,但根据内部人士透露的数据初步估算,Sora模型可能需要
上千至数万个GPU卡级别的算力资源,并历经约两个月左右的训练周期。不过,这一估计较为粗略,
实际需求会受到多种因素(如输入信息复杂度、处理器优化程度等)的影响。
-市场对比分析:参会者普遍认为市场上的现有产品在视频生成方面与Sora存在明显的层级差距,这不
仅体现在视频长度,更在于视频质量、内容丰富度、逼真度及连贯性等多个维度。

3.Al创新带来的挑战与机遇
-OpenAl在多模态视频领域迅速推出Sora模型,此举紧跟在Google新产品发布之后,凸显出OpenAl意
图快速超越竞争对手的战略布局,给市场带来意外的速度冲击,并提升了自身的不可预测性和竞争优
势。
-Al创业公司如Runway和Picasso要在视频生成领域提出比肩或超越OpenAl的产品,则面临巨大挑战。
为应对挑战,他们可能会选择聚焦细分市场,通过找准特定应用场景并率先打造一两款成功案例来占
据市场份额,再逐步扩大应用范围和市场份额。
-大型视频社交平台密切关注新的视频生成技术进展,其中OpenAl的数据模型尤为引人关注。相比之
下,尽管谷歌的ChatGPT模型同样具有创新性和良好的实测表现,但在关注度上却相对较低,这显示
了OpenAl在Al数据模型领域的领先地位。

4.探讨Al应用落地面临的挑战与前景展望
-Al技术的落地应用不仅受限于技术本身,还受到人类接受度、社会环境、政策法规等诸多外部因素的
影响。共识达成速度的快慢取决于各方对Al的理解和期望值的一致性;而即便技术更新换代速度快,
也可能推动行业进步,比如现今的Al虽未全面落地,但已在全球范围内引发广泛关注,且尚未达到令
投资者失去信心的地步。
 
-对于像ChatGPT和视频生成模型这样的Al产品,商业化落地的过程中要考虑企业是否有尚未公布的强
大模型储备,否则必须缩小与领先者的性能差距以实现真正意义上的商业化。软件应用场景广泛,涉
及电商、娱乐、游戏开发、影视制作等领域,尽管已有应用端倪初现,但整体而言仍处于早期阶段。
-在讨论过拟合和数据质量问题时,即使拥有海量数据,Al模型依然存在无法准确捕捉实物运动等现
象,主要问题指向模型能力局限而非过拟合。

5.借助Sora模型探究Al的记忆与鲁棒性
-改进策略:针对Sora模型在物理场景处理中的不足,首要解决措施是对包含坠落、碰撞等物理事件的
训练数据进行加权优化,强化模型对此类场景的学习。其次,可通过调整模型结构,研发针对特定任
务的子模型或专家网络,以增强模型在这类问题上的处理效能。
-长视频生成与记忆鲁棒性:提升模型生成长时间不露破绽的视频能力,实质上要求模型具备更强的上
下文记忆功能。这意味着需要进行高效的长序列建模,增强对序列长度的记忆保持能力,确保模型能
够记住更多细节并维持长时间内的视觉一致性,这依赖于模型卓越的推理能力和计算强度。-Sora与
GPT-5的关系探讨:Sora模型底层架构被认为与GPT系列紧密相关,具备极强的文本理解能力,但由
于相关信息不明,无法确定其与GPT-5的具体关系版本。

Q&A
Q:有推测或者业界猜测Sora的训练语料和别人最大的不同是什么?是不是他的视频数据比较多,或者存
在一些其它的缺陷?
A:Sora的模型如果真的如此先进,他们的训练语料一定有特别之处。大家有猜测,比如说使用虚幻引
擎的虚拟数据去生成,是非常有可能的,或者说大概率是有可能的。如果仅用的是真实的视频,他可
能只学到真实的数据规律,没有学到真实数据和合成数据之间的差别。为了改善这种情况,他应该用
生成的数据和实际的数据进行对比和对抗学习,这样可以避免以往虚幻引擎生成的数据的错误。第
二,数据量仅是一方面,数据质量也非常重要。这包括视频的内容及其配套的文字描述,肯定是非常
准确、精确,且能被模型或计算机理解的语言。
Q:有关于Sora的模型算力的测算吗?他的算力的训练和推理要比过去提升到什么样的程度?
A:很难进行精准的测算,因为这取决于很多工程细节。在极粗糙的估算中,如果是基于像素和帧数的
数据输入,以及模型的参数,我认为可能需要千卡到万卡级别的训练,持续两个月左右。但这个数字
可能和实际需求有很大的差距,我们现在得到的信息太有限了。

Q:OpenAl的Sora模型和其它竞争者(比如皮卡)之间有多大的差距?这个差距主要表现在什么地方?
A:显然,从目前看,OpenAl的Sora和其它的模型之间是存在明显的断层式差距的。不仅仅体现在视频
的长度(3秒或60秒),更主要的是在视频的质量、一致性、逼真度、还原程度以及视觉效果等各个方面。
所以,我们认为,这个差距远大于视频长度的差距。这就意味着,别的模型想要达到Sora的效果,不
仅仅是生成更长的视频,更需要在内容和质量上做出重大的提升和改进。

Q:您之前对OpenAl的布局和发布有所疑惑,能具体解释一下吗?
A:我之前对OpenAl的布局和相关产品发布的速度感到十分惊讶。我早前预测OpenAl可能会在今年下半
年或年底提出一些重要产品,然而他们发布Sora的速度完全出乎我的意料。现在我无法判断OpenAl接
下来的计划及他们会提出怎么样的新物品。它在等待更好的时机去释放更重大的新闻。
 
Q:您如何看待Runway和PiCa等Al创新公司在视频生成基础赛道与OpenAl的竞争?
A:如果这些创业公司还想在Al视频生成的基础赛道上,去提出比OpenAl更好的模型,他们面临的挑战
是极大的。我觉得他们可能要找准一些具体的应用场景,做好一两个落地的产品,深入了解客户需
求,占据一部分市场份额,然后利用他们在这一块的优势拓展其他领域。并非一味地追求基础模型的
通用能力。

Q:关于短视频公司如何看待Al在视频生成应用中的使用,您有何看法?
A:从我了解的情况看,所有的短视频公司,对于Al视频生成都持非常谨慎的态度。一方面,Al视频生成
的技术会降低内容创作门槛,让更多的人能够生成符合网络标准的视频。但另一方面,如果大家都使
用Al生成逼真的视频,对于短视频的生态,包括用户经验可能会存在影响。一旦用户分不清这个是真
人还是Al生成的,他们可能会感到被欺骗。而且,Al生成的视频可能会带来一些道德伦理方面的风险。
因此,这些平台一方面在布局自己的创作工具,另一方面会在Al生成视频上面进行严格的监管和控
制。
Q:那对于短视频公司在大模型上的研发投入,他们有具体的产品雏形或计划吗?
A:他们现在主要的布局思路就是Alagent和Al创作工具。Alagent可以帮助用户在其他人不在线时与Al
进行交流或分享事情。Al创作工具可以帮助用户生成视频、美化视频、添加特效、背景或文案等。这
两个方向也是盖能最直接融入现有产品和业务的方向。

Q:有人评论说Google的Jimmee1.5表现有些夸大,您怎么看?
A:Jimmee1.5独特的是它提供了长达1000K的上下文模型能力,对于处理超长上下文数据如几千页的技
术报告或几万行的代码库等扮演着关键角色。如果它的实际性能能够达到宣称的水平,那么它确实有
一定的实际工业应用能力。尽管它和OpenAl的Sora并非直接竞品,我认为它仍然值得我们高度关注。

Q:有没有觉得SORA的发展可能带来一些明显的、更实际的业务应用?
A:对SORA具体的应用我并无法作出具体预测,因为Al和大模型技术的发展速度一直很快,我们期待它
的各种应用,但实际落地的大型应用并不多。虽然有一些小的玩具级应用,但我们希望看到的大型、
广泛使用的应用还没有出现,这也需要一段时间才能看到成果。

Q:对于Sora模型技术的大规模落地,即使在技术力量支持下,却仍然存在许多挑战。请问这些挑战具
体有哪些,以及您如何看待这种情况?
A:技术落地除了依赖于技术能力,还会受到许多技术以外的因素影响,如人类对Al的接受度和期望以及
社会认知等。许多人们对Al的迅猛发展持抗议态度,觉得Al有可能反噬人类。此外,政策制定者对Al的
态度若未在短时间内形成统一,可能会导致技术发展方向未能达成共识。若技术迭代过快,可能会带
来许多问题,如核武器一样,这是一种极具破坏性的武器,其审批和应用等监管需要十分严格。因
此,我个人认为Al技术的未能快速落地并非全是坏事。事实上,尽管OpenAl或其他公司的Al技术未能
快速落地,投资资金仍旺盛且全世界对Al领域的关注度仍十分高。这表明,对于Al短期无法落地这个问
题,并不会对其未来的发展造成较大影响。

Q:关于Sora模型短期无法产生实质性商业化落地的问题,您对此有何看法?
A:首先,对于新技术的商业化落地,一定会有期待其能带来惊艳效果和快速打开市场的厚望。但现实
情况往往并非如此,Sora模型也不例外。除非OpenAl还有隐藏的、强大的模型没有释放,否则以现在
的模型性能,我估计在电商、可控生成、游戏制作、娱乐产业、室内装修等领域的落地还需要弥补一定
的差距。过早地投入这个领域,可能并不十分合理。然而,我也能透露,且前已经有一些大公司正
在布局相关业务,比如Amazon就正在进行Alagent的开发,包括国内也有电商公司在进行相关工作。
此外,也有创业公司正在利用小型模型生成室内设计创意,解决人们的日常生活问题。尽管我们现在
并未看到令人非常兴奋的应用机会,但已经有了这样的端倪。因此,我认为,Al将应用于实际生活的
时代并不会太远。

Q:关键帧对于这个模型的重要性,可以具体解释一下在视频制作与渲染过程当中,关键帧的提取和其
所占比例吗?
A:关键帧的提取并不是一个新技术,以前就有成型技术用来提取关键帧。但是这只是从技术上说,确
定关键帧更多地依赖于关键帧本身包含的信息以及背后的物理知识。我们可以借助工具从全局和局部
的角度进行提取。比如通过视频中的物体运行轨迹、内容理解、颜色变化或者画面边界及物体位置等
方法。关键帧的提取并不那么容易以依赖于算法,一部分依赖于模型复杂度,一部分则依赖于大量的
数据,有许多这样的数据可以喂给模型,让它理解哪些帧是关键帧。

Q:您对于这种情况,有关键帧提取是不是关键所产生的疑问,能具体描述一下吗?
A:确实我现在的疑问主要是关于Sora是如何识别和生成关键帧的。我们看到视频里的很多现象,事实
上已经在训练数据里见过了,而且理应能学习到一些物理学的规则。但在实际输出时,像水流动或人
行走等规则却未被学到,令我疑惑它的真正原因是什么。我认为,这主要是因为虽然模型已经有了一
些弱视觉,但可能是在模型的部分通道中没有被赋予足够的权重,导致这些知识并没能在最终输出的
视频中得以体现。所以我们需要深入了解这个模型的更多细节来解决这个问题。

Q:刚才您也提到数据质量的问题,特别是关于过拟合问题,您能进一步阐述一下吗?
A:过拟合是学习问题中的一个基础问题,就是当模型过于复杂,又相对于训练数据过少时,可能就导
致模型过拟合。但从OpenAl的结果看来,并未看到明显的过拟合痕迹,反倒是模型对某些应当学到的
知识并未学到,这更像是模型表达能力的问题。我个人认为,虽然模型能力还有待提高,但是数据量
对于模型训练仍然是一个更重要的因素,而我并不认为OpenAl的训练数据中完全没有这些基础的物理
知识角色,所以我更认为这个是一个模型的问题,而不是数据的问题。以上就是整个问答的内容,这
是基于投资者会议上讲话者的讲话进行的提炼和整理。

Q:您能分析一下,为什么 Sora的模型在处理一些特定问题上表现不佳,比如在处理碰撞、破裂、爆裂
类的任务中表现欠佳,是因为训练数据的问题,还是模型的问题?
A:我认为,对于Sora的模型存在的问题,可能主要有两个来源。首先,训练数据可能不够全面,如果
训练数据中没有足够的与碰撞、破裂、爆裂相关的数据,模型的表现自然会受限。解决这个问题,一
种方法就是在训练数据中添加更多有这些过程的例子,并给这些例子增加权重,这样模型在训练过程
中就会把这些情况学得更好。另外一个可能的问题是模型结构本身,我们可能需要对模型的结构进行
改进,比如引入专门处理物理效应的子模型或者专家网络。但这些分析都是基于模型现有的问题,并
没有基于第一手的资料,所以只能作为一种大方向的讨论。

Q:关于Sora模型的鲁棒性,我看到它能生成长达一分钟的视频,这种长视频的生成的能力是如何被建
立起来的?为什么他能生成这么长的视频,还能保持一定的稳定性?
A:生成长视频需要更强的上下文记忆能力。如果你是生成一个一分钟的视频,在这个长序列中,模型
要记住更多具体的细节,保持视觉的稳定性,实际上就需要这个模型的推理能力和长期记忆能力更强。
这需要模型能在更长的时间窗口去做更多的attention,以及做长序列的建模。而长时间窗口保持视
觉稳定所依赖的记忆能力,我认为应该是模型迭代发展需要重点关注的方向。

Q:那么 Sora的这个模型是否跟GPT5有关联?对于GPT5的能力和进展,你有何看法?
A:我确定Sora模型的基础是GPT,因为GPT在文本理解能力方面非常强。无论是GPT的哪个版本,都提
供了强大的文本理解能力,这是Sora模型能实现其功能的关键。实际上,无论Sora的模型使用的是
GPT的哪一个版本,都是应该基于其强大的文本理解能力。至于指向GPT5,我确信它在技术层面上已
经准备就绪,但OpenAl可能在寻找合适的时机发布。



  业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     联系人:石先生/雷先生