微立顶科技

新闻资讯

创新 服务 价值

  Sora模型详解和应用探讨

发布日期:2024/2/22 15:48:06      浏览量:

1. Sora模型开创AI视频创新纪元
Sora模型,由OpenAI首度推出的基于大规模多模态数据训练的微生物视频生成模型,以其显著超越同
类技术的视频生成能力而引人注目。该模型突破性地实现了平均60秒的高质量视频生成,远超过当前
业界普遍的4秒标准。
在技术架构上,Sora模型巧妙融合了GPT系列模型对长文本连贯性的把控力和先进的图像控制技术,
确保了生成视频画面的一致性和精准调控。值得一提的是,得益于其大规模训练与强大的计算资源支

撑,Sora模型自发涌现出了三维深度等未专门训练的能力。


2. 分析Sora模型的应用成本考量
对于创业者而言,模型参数规模及计算投入是重要因素:尽管30亿参数级别理论上意味着较小的数据
集和算力要求即可复现实验效果,有利于资源有限的初创企业和开源社区探索应用,但实际部署时参
数规模及训练条件或更为严苛,并非全然利好消息。
而在服务提供者视角,推理成本尤为重要:以当前信息,Sora模型每生成4秒视频可能需要1分钟A100
级别的推理计算时间,导致高昂的成本且随着并发请求增加呈指数级上升,这无疑加大了B端应用的成
本负担。然而长期来看,尤其是中低端推理算力市场的成熟足以满足大部分需求,整体成本有望得到
控制。

部分表述如“纹身视频”、“可以算力”可能存在转译误差,需进一步核实澄清。


3. SORA模型的跨界影响与变革潜力
预计至2025年,AI将生成全球20%的数据内容,涵盖文本、图片及视频领域,对内容产业产生深远影
响。届时,信息流平台格局可能发生剧变,推荐算法的重要性或许减弱,用户可直接通过AI生成个性
化内容;Adobe等传统工具开发商也将面临挑战,或将积极研发自有AI模型或寻求与大模型厂商合作来

适应新兴的AIDC(AI驱动创作)趋势。


4. Sora模型核心技术与商业应用场景
Sora模型的核心优势在于其作为视觉导向的DRG模型,不同于传统的语言模型,它借助GPT实现语义
理解并专注于特定场景应用,从而区别于诸如Pika、Runway等多模态模型。尽管采用了类似
Transformers的部分算法,其在视频生成的控制能力和支持多机位视角的独特性尤为突出。
技术发展路径方面,Sora结合了Transformers算法以强化视频连续性,并运用空间压缩技术进行创
新。创始人强调,虽然其中许多技术并非全新,但其整合方式预示着Transformers在未来技术发展中
占据关键地位。
商业模式方面,目前主要采用基于算力消耗的计费模式,无论是会员订阅还是按使用时长收费,均围

绕算力成本设定利润空间。未来市场主流预计仍将以算力为基础,反映出市场趋势与成本管理策略。


5. 算力需求与未来发展预测
从用户侧需求看,C端用户无需配备高端硬件设备,云端推理能力能够满足日常需求,供应商负责提供
充足的算力资源,针对高并发情况可能会采用阿里云等云计算平台补充。
展望未来,若像Sora这样的模型广泛应用于内容生成领域,算力需求可能呈现指数级增长。至于是否
能通过迭代实现更长时间段的视频生成尚待观察。
国内市场方面,抖音母公司的字节跳动凭借在视频内容领域的深厚积累和快速发展的团队实力,极有
可能在AI驱动的视频生成赛道取得突破性进展。

6. 深入剖析Sora模型及其行业应用前景
技术壁垒方面,尽管Sora模型具有先进性,但随着时间和足够的算力投入,其他厂商也有可能实现相
似的技术成果。OpenAI的研究报告指出,在达到一定规模后,此类模型往往会带来新的发现,揭示出
技术具备一定的可复制性。
在国内市场,人才储备、数据资源以及算力是提升AI能力的三大基石,尤其是引进海外人才是中国加

快AI产业发展的重要潜在优势。


7. Sora模型商业化前景与挑战分析
成本与市场化进程:尽管当前Sora模型的总体成本较高,商业化的具体时间点难以精确预见,但参照
先前产品从发布到市场落地的时间周期,预计一两个月后就有望开启商业化尝试。
与此同时,AI技术的发展将面临一系列问题,首要任务是对抗虚假信息传播,例如通过红队测试等方
式提高识别和应对能力。解决虚假信息及不适宜内容的技术难题,将是推进商业化进程的关键环节。
此外,数据安全与隐私保护、生成内容的版权归属与保护,以及责任划分等问题同样是AI行业发展过

程中亟待解决的重大挑战。


Q&A
Q:Sora模型在宏观层面上有哪些影响?
A:从宏观层面来看,Gartner预测到2025年,人类生产的数据中将有20%源自AI。这意味着不仅文字
内容,甚至图片和视频内容将有很大比例是由AI生成,这将对内容行业乃至多种产业造成影响。
Q:在中观层面上,Sora模型对信息流平台和专业工具有哪些潜在影响?
A:信息流平台如抖音、小红书等未来可能会因为AIGC技术应用的普及而发生变化,不再依赖于算法
推荐,而是能够根据用户需求生成内容;专业工具如Photoshop可能需要适应AIDC生产工具带来的挑
战,Adobe已经在尝试嵌入训练有素的AI模型以增强Photoshop的功能。这些变化表明,传统内容生成
和编辑的方式可能会被AI能力的直接生成所取代。
Q:从长远角度看,大模型生态系统可能如何发展?
A:预期未来会有基于大模型的生态系统形成。类似微信小程序在微信生态中的角色,GPT和其他大型
模型可能也将支持各种插件应用,帮助解决生成内容中的各种问题,例如幻觉问题等。内容产业也可
能因为这种技术变革而迎来商业层面的更迭,如宣传片和电影产业的改变。
Q:在应用层面,哪些行业可能会受到Sora模型影响?
A:若Sora模型的3D和深度学习能力得以增强和广泛应用,游戏产业和自动驾驶产业可能会受到重大
影响。游戏行业可利用其生成精美地图的功能,而自动驾驶领域可能会因Sora模型理解视频和视觉内
容的能力得到提升而产生颠覆性的影响。
Q:对内容从业者来说,Sora模型可能带来哪些变化?
A:在更具体的层面,内容从业者可能会面临技能需求和工作流程的变化,因为AI的介入将改变内容的
生产和编辑方式。
Q:索尔模型相比其他模型,如GPT1.5,有什么独特之处?其技术细节和控制能力有何不同?
A:与GPT1.5相比,索尔模型是一个视觉模型,它是依赖于GPT来加强对文本的理解的,因此它更像
是偏科选手,两者的擅长点并不相同。此外,索尔模型在技术细节上有其独特性,比如它结合了

transformer算法来增强视频的一致性,虽然其他模型也可能具备相关能力,但索尔模型在某些方面表
现得更强。与GPT1.5类似,索尔模型也具备多模态识别能力和更长的上下文理解。
Q:索尔模型的技术路线是否会成为其他大模型需要追随的方向?
A:索尔模型及其技术并非全新独创,许多技术是现有技术的变种。如果技术报告中的内容如实,且因
为它的训练过程和具体参数未公布,很可能很快会有其他模型复现相似的能力。故而,索尔的技术路
线只是众多选择中的一种,其他大模型厂是否追赶这种技术路径,取决于其各自的技术方向和商业决
策。
Q:索尔模型的商业模式会采取什么样的收费方式?
A:索尔模型的商业模式主要还是基于算力收费。无论是会员费还是时长收费,其本质上都是根据使用
的算例、时长和所使用的硬件(比如3090显卡)来定价。考虑到内容生产的第一成本是递增的,尤其
是在高并发情况下,算力成为了最后的定价基础,加上一定的利润空间作为收费标准。未来的主要商
业模式预期将延续通过算力收费,这不仅适用于视频和图像产生,同样适用于语言模型。
Q:关于模型训练过程中的算力估算,可以详细说明一下估算的过程和理论依据吗?
A:在估算索尔模型训练所需算力时,我们首先考虑了所需的数据量,并以YouTube为基础进行了类比
推测,假定其有充足的优质数据供训练使用。我们推测索尔模型的训练数据量是GPT-4的2到4倍。由
于GPT-4披露的训练量是25,000张A100显卡使用3个月的数据,我们据此推算索尔模型可能使用了类似
规模的算力,再考虑到AC100相比A100有三倍的算力提升,我们得出了所需算力的大致量级。这个推
测是基于专家投票结果,并结合了对算法训练时间的合理推断。简而言之,估算过程有一定的不确定
性,但大体反映了行业内专家的共识。
Q:如果我们未来想在C端场景下实现自动生成的算力,比如自动生成视频效果,需要C端用户自己购
买高配置电脑吗?还是都在云端完成?
A:供应商一般会购买大量算力来提供服务,同时使用阿里云等云服务作为补充。所以,在推理侧,大
多数情况供应商会提供所需算力,顾客通常不需要购买高配置电脑。这是因为使用云服务进行视频生
成在推理上比较灵活且技术成熟。
Q:Sora模型在推理侧对未来算力需求有预测吗?
A:我们现在为300万用户提供服务,大约用2000多张卡产生图像。如果需要大力度增加服务,比如提
供长视频内容,可能要将现有的算力增加15倍,这是基于使用优质的Sora模型,前提是用户都愿意使
用它来生成内容。
Q:你们的模型是否会迭代来生成更长的视频,比如半小时或一小时级别的视频?如果模型迭代,是否
意味着算力需求会指数级增长?
A:目前,能生成一分钟的视频就已满足了短视频时代的需求。不过,如果算力问题得以解决,模型潜
力很大,未来理论上可以生成更长的视频。OpenAI所使用的transformer模型擅长处理长距离的关系,
如果训练数据量增加,模型完全有潜力做到这点。但是否会朝这个方向迭代,目前还无法肯定。
Q:国内哪个大厂在文生视频这块可能走得更快一些?
A:抖音可能会走得更快。字节跳动有收购剪映、招募AI人才等动作,已在AI领域取得不错的成果。另
外,抖音拥有丰富的数据素材和充足的算力资源,如果他们把文生成视频作为重点发展方向,有可能

表现出色。在语言模型和多模态领域,抖音也有很好的表现。其他公司也各有所长,但首先想到的是
抖音。
Q:索尔(Sora)模型在技术上没有什么特别的,是否意味着只要算力足够,其他厂商或国内厂商也
能做出类似的效果?
A:OpenAI的Sora模型并没有使用非常独特的技术。很多人曾预测,从发展的角度看,OpenAI的技术
在一段时间后能被追赶上。例如,当CPT3.5推出后,人们预计其它厂商需要多久时间能赶上。现在,
我们可以看到很多厂商已经赶上了DB3.5。OpenAI在其报告中谦逊地使用了大量的“wefind”,表明他们
在探索过程中发现了模型当达到一定的参数量级和训练量后呈现出的特点。所以从技术的复现角度,
这是一个时间问题。同时,由于其使用了年轻团队已经熟悉的训练方法,实现起来其实是可行的。不
过,即使技术框架相同,复现效果可能仍有差距,因为OpenAI建立了一些技术壁垒。例如,它在图像
控制表达能力上结合了DALL·E和GPT-4的能力,如果其它厂商没有相应的图像和语言模型能力,即便
在技术上匹配,也可能会有所差距。人才、数据和算力是三大壁垒。在算力方面,尽管算力是一大壁
垒,但对于大厂来说这并不是问题,他们已经积累了大量的高端算力资源。国内大厂在数据层面也不
落后。人才方面则主要受环境影响。OpenAI的一些参考论文有很多华人作者,但大部分都在海外。如
果国内能有更多优秀人才,国内的发展也会加速。
Q:Sora模型在视频内容创建方面的应用会完全取代人工视频剪辑吗?
A:Sora展示了强大的控制性,如果某些细节不满意,可以通过抽帧再生成,直到达到满意的效果。但
人的创造力在这一过程中仍然至关重要。使用AI生成工具的专业人员和初学者在描述审美和质量上会
有很大差异。有审美的人仍能创造出更美的东西。OpenAI在视频剪辑中的应用表现出专业性不足,如
果由专业人类操作,可以更自然、更高效地处理。因此,人的创造力和对审美的理解在AI辅助下的创
造活动中依然发挥着关键作用。
Q:自动驾驶技术发展方面,是不是已经完全转向视觉系统占据绝对优势了?
A:目前自动驾驶的技术发展确实看到了视觉系统的显著优势。特斯拉的ElonMusk也没有预料到Sora
这样的技术会涌现。因为通过视觉系统可以识别出深度信息,OpenAI的Sora可能已经学习了街景地图
等包含三维深度信息的数据。这意味着它可以更精准地理解和识别世界的深度。因此,加上理解能力
的提升,自动驾驶可能就只是一个小挑战。从长远来看,如若AI能够更准确地模拟三维世界,自动驾
驶只是其潜在应用之一,未来可能会对多个领域产生影响。
Q:听下来发展目前的成本还是比较高昂,请问您能否对未来的商业化时间节奏做一个预测?Sora模
型的商业化,像现在的ChatGPT一样,开始向广大客户提供服务的时间大概是什么时候?
A:关于Sora模型的商业化时间,不太好估计。以往的情况来看,达利模型从发布到用户体验大概用了
一个月。目前Sora模型已经在进行红队测试,如果按照过去的节奏,可能也是一两个月时间内就可以
进行商业化。当然,可能会有几轮内测后再逐步推广。一般来说,AI产业的产品发布比游戏产业更准
时。
Q:Sora模型在做训练的时候,使用了哪些类型的训练材料?
A:关于训练材料的使用情况,据我们猜测,Sora模型可能训练了大量的游戏数据,因为这些数据通常
是带有三维特性的,这为模型提供了丰富的内容和素材。
Q:Sora模型面临的问题有哪些?

A:Sora模型可能会面临两个主要的问题,需要引起投资者的注意。第一个是废弃问题,这包括可能产
生大量的误导性信息。解决这些问题正是目前进行红队测试的主要原因之一。尤其是对于虚假信息的
识别较为困难,因为它们是设计来欺骗的,可能需要人工细致地进行审查。若处理不当,对于国内商
业化可能会有较大影响,因为国内产品推广时需先解决这些问题。然而,这也为创业者提供了机遇,
如果能帮助AI解决这些问题,可能会有商业上的成功。第二个是数据和版权问题,这对所有AI产品而
言都是核心问题。原生的AI公司很难积累大量数据。例如,虽然OpenAI背靠微软,但也缺乏相应的原
生数据。学习过程中可能会面临数据安全、隐私侵犯等风险。版权方面,需要考虑AI生成内容是否具
备版权,应该如何保护以及权利如何分割。如内容生成者、模型和运营平台之间的责任划分,都是商
业化需要考虑的问题。随着AI生成内容越来越多,版权问题的设立变得尤为重要。


  业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     联系人:石先生/雷先生