多模态AI发展趋势分析
发布日期:2024/2/22 15:55:19 浏览量:
1. AI国内外对比与Sara技术应用探讨
在全球AI技术的发展浪潮中,OpenAI、Google(现Alphabet)及其子公司Meta等国际领军企业凭借顶
尖的技术创新能力走在前列。国内虽有大型科技公司在AI技术研发上有所建树,但在原创技术和整合
能力方面尚存差距,头部效应明显,中小型企业往往面临较大竞争压力。
尽管如此,我国在AI基础研究领域贡献显著,如浦江实验室、清华大学和北京大学的研究实力雄厚,
但如何将研究成果有效工程化并转化为商业价值仍是一个亟待提升的关键环节。Sora技术的推出有望
为国内参与者创造机遇,在传媒行业中利用这些先进技术解决逻辑性问题,特别是在内容创作和视频
制作领域开辟新的商业路径。
2. 多模态AI挑战与未来趋势分析
当前,复杂的solo模型结构融合了扩散与Transformer架构,这可能导致在处理较长视频时出现的问题
加剧,短期内若沿用现有模型结构,解决此类难题较为困难。尽管存在上述挑战,solo模型在视频产业
中仍有广泛应用前景,尤其是对于视频渲染业务,它有可能颠覆传统流程,直接以AI生成视频替代传
统的渲染手段,对整个视频行业带来深刻变革。
尽管目前公开信息有限,但业界推测solo模型因其整合了多种前沿技术,可能在效果表现上超越单一产
品,同时考虑到OpenAI在GPT模型、计算能力和数据积累上的优势,solo或将催生出更为震撼的应用
成果。
3. 国内多模态AI在视频生成领域的实践与挑战
在国内,厂商已在多模态AI技术上取得一定进展,然而由于高成本和使用难度等因素,过去这类技术
难以实现商业化落地,一度被视为昂贵且不易操作的解决方案。随着Sara技术框架的披露,预期众多
国内厂商,特别是主要企业将会加快相关研发步伐。
国内企业在推进多模态AI应用过程中,面临的最大难题之一是如何有效管理和确保生成内容的安全
性,这一需求进一步加速了行业集中度的提升,拥有本土化内容安全规则理解和实施能力的企业更具
竞争优势。
多模态AI在诸如广告创意、影视制作、游戏设计等领域有着广阔的应用前景,能大幅提高生产效率并
革新创造性内容产出方式,尤其在短视频广告制作上,运用此类技术可快速生成高质量内容,从而产
生极高的商业价值。现阶段,即使是针对一分钟以内的多镜头短视频创作,其实现效果已经足以满足
实际需求。
4. 商业化进程中的挑战与潜在影响
尽管在中国地区实现多模态AI技术的商业化可能存在一定的困难,但在海外市场,一旦成熟应用,预
计大量影视制作公司、动画工作室以及短视频创作者会迅速跟进采用此技术。
在行业结合方向上,Sora技术有望在模拟和渲染虚拟环境与动态场景方面发挥重要作用,与M2空间视
频技术及各类3D资产相结合。例如,游戏开发者或工作室可能会利用Sora接口开发出交互式的生成式
多模态游戏作品。
竞争格局演变方面,根据Sora的相关论文,该技术不仅可以基于文本生成视频,还能根据现有图像或
视频进行编辑提示,未来很可能以此为基础开发新型编辑工具,重塑行业格局。
5. 多模态AI发展前景与趋势预判
展望未来,AI技术将衍生出能够连接视频与视频片段、图像与图像之间关系的新一代工具,形成全新
的生产场景,并配套创新的生产工具。
当下,OpenAI在保持技术前沿性和将尖端技术快速转化为产品的能力上似乎略胜谷歌一筹,尤其是在
网络应用广泛普及和展示强大竞争力方面。尽管谷歌可能在超长文本处理能力上不断提升至千万字级
别,但从商业角度看,这种能力对OpenAI等竞争对手而言并非必要条件。
Q&A
Q:请您分享下新图比特近期在多模态AI领域的工作进展,特别是对于AI大模型上线备案的心路历程?
A:新图比特的主要聚焦点是智能数字内容资产的生产,我们在利用AI生成技术,包括多模态的文本、
图像、音视频等领域都有一定的涉足。特别是最近,我们的一个大模型绩点华章,已成功完成了网信
办的生成式人工智能大语言模型的上线备案,这也因不少跨部门的认可。我们其实从去年的11月份就
开始备案的准备工作,包括提交材料,以及在模型的训练和产品的功能上,做各种各样的修改和迭
代,以满足一些国内的合规和生产需求。所以,这个过程更像是给公司的一个洗礼。
Q:您能具体介绍下新图比特在AI大模型的应用上有哪些独特优势吗?
A:我们的大模型绩点华章,特别是在服务大传媒行业的方面,具有很多优势。例如对于内容安全的需
求,我们做了更加强有力的保障。绩点华章有一个很强的特点是它在长文字或者高密度内容的反馈能
力上,以及效果和效率上,较其他的模型有明显优势。举例来说,假如在出版行业,一篇文章可能需
要处理10万个,甚至几十万个字,我们的反馈时间要比其他模型快很多,也能更好地支持更高密度的
内容和单词识别。
Q:未来,您将如何工作以保持新图比特在AI大模型应用中的领先地位?
A:我们看到,其实目前国内应用端有明确方向并应用模型的公司并不多,所以很多大厂也都在找我
们,政府端也给了我们很多支持。所以像什么算力,包括一些其他资源对我们来说也相对比较富裕一
些。我们将在新的一年中,继续以大传媒行业为重心发力,和我们的股东以及合作伙伴一起,深耕大
传媒行业的赛道。
Q:对于当下AI大模型领域,您怎么看待国内外的竞争格局?
A:国内外的竞争格局其实是指在大模型应用或者是技术进展的差距吧。
Q:OpenAI和GoogleMeta在AI领域的实力如何?国内AI产业又处于什么位置?
A:OpenAI和GoogleMeta在AI领域享有着显著的优势,他们都具有很强的实力。而国内的大厂,虽然
能力也很强,但是本质上仍处在稍次于前两者之后的位置。这主要是由于AI领域的头部效应显著,这
使得相比于传统互联网其竞争格局表现出更强的优胜劣汰特性。
Q:国内AI企业的基础与整合能力如何?
A:国内从基础科研角度来说,具有一定的能力,但在整个技术的整合能力上来说,前沿性则还是稍微
有所不足,尤其是在0到1的创新能力上。然而,对于从1扩展至100的能力,也就是优化、精细化及规
模化应用的能力,我认为并不差。但综合来看,由于AI领域的头部效应过于强大,因此对于实力稍弱
的厂商来说,如果在低端业务上与头部厂商进行直接竞争,风险较高。
Q:对于AI领域,国内与国外的科研贡献有何区别?
A:主要的论文和突破性研究大多来自国外,但中国也有优秀的机构和大学积极参与研究并取得贡献,
如浦江实验室、清华大学和北京大学等。值得注意的是,尽管国内有强大的基础研究能力,但在工程
化转化的能力上,国内企业或机构相对较弱。
Q:Sora为国内参与者带来了哪些机会?
A:Sora为内容创建者带来了催化效应,将激发一些新的内容创作衍生的可能。并且,从技术角度看,
Sora的运行并不需要特别强大的算力支撑,这使得更多人能够参与进来。具体来说,产业上的表现可
能会鲜明地体现在视频渲染与版权内容创作等环节。
Q:Sora在哪些方面带来了更多机会?你觉得哪些细分赛道与AI相关并且有更大的机会?
A:结合AI的发展,我认为整个大传媒赛道应该都具有很大机会。具体而言,例如一些视频方面的模
型,其实对于AI来说最大的困难是逻辑性问题,例如视觉表现的逻辑性和调度。但是在单镜头下的连
续性,目前已经可以做得相对来说还可以,比如Sora更是在这个方面做出了优秀的效果。
Q:Sora模型相比以前的模型更复杂,请问这种复杂性带来的问题在短期内有可能解决吗?
A:模型复杂性确实带来一些问题。比如视频时间越长,由于模型的复杂性,算法所带来的错误可能被
放大,导致视觉上的问题变得更明显。而这个问题我认为在短期内难以解决,除非诞生新的模型结
构。然而,一分钟内的视频,算法带来的视觉问题可能不会被人察觉,即使是长视频,一分钟时间的
分镜头已经是足够长的。因此,无论是广告、电影还是动画,视频类应用基本可以适用这个一分钟的
限制。
Q:Sora模型复杂,长视频可能存在问题,这在投资层面上会有什么影响?
A:在投资层面上,我认为涉及到视频行业的大型传媒可能会有机会。然而,我看到的威胁来自于未来
渲染公司的风险,因为他们可能会被这些有模型的公司所替代。换句话说,无需渲染就可以直接生成
视频,未来可能就会是导演、编剧、脚本后,模型自动生成视频。
Q:Sora不采用transformer加扩散模型,是否是造成视频模型没有出现爆炸性效果的底层原因?是否
有其他像数据等因素的影响?
A:对于爆炸性效果没有出现,可能因素很多。这次的模型结构复杂化是一个关键因素,然后又将OBI
过去一些的产品和技术做了整合,形成了一个新产品,可能这使得它比其他的一些产品效果更爆炸。
数据影响也是可能的,例如他可能使用了一些游戏引擎数据等。具体的细节部分,目前公开的信息有
限,所以我们现在只能做出猜测。
Q:骚扰模型在生成3D或者多维数据方面,是否有利于他在数据收集方面具有特殊性?
A:从目前公布的信息来看,他确实会使用一些游戏引擎的数据,游戏引擎生成的数据,其实视觉效果
往往具有更大的冲击力。但具体的细节部分仍未公开,我们只能推测他可能使用了一些合成数据。
Q:您对于国内厂商在多模态AI视频方面的进展有什么了解?
A:多模态AI视频发展是个趋势,许多大厂都在投入相关研发,但过去商业化进程较缓慢,背后是因为
技术开发成本高且易用性较差。而我们最早曾投入过相似项目,例如"人工智能交响乐团"这个项目,但
并未形成明确的商业化路径。我预期在Sora技术框架的推动下,国内将会有大量厂商进行跟进。
Q:这种跟进过程中,国内厂商可能面临的技术难点和门槛是什么?
A:我认为该趋势与GPT类模型的发展类似,首先会有大量厂商和研究机构投入大模型的研究和开发,
同时也会开始积累大量数据,主要是视频类的数据。从整个时间窗口上看,大概需要1到2个月或2到3
个月的时间进行训练。不过,国内的厂商需要注意的是,生成式模型都会受到一定的管控,对于C端产
品,需要考虑到内容安全类的风险。因此,我预测这一波国内的发展会更加"头部化"。
Q:多模态AI的技术应用场景有哪些?对如影视制作、游戏或者短视频广告等行业的影响程度有多大?
A:多模态AI可以高效地生成样式类视频,具有很高的生产效率,这将对广告行业、动画或影视制作行
业产生强烈冲击。AI具有很强的创意性,能给出不受人类限制、具有新颖性的结果。我预测对于影视
制作、特效、广告等创新要求高的领域,将产生巨大影响。因为AI技术能生产出一些像外太空、微观
世界等的科幻主题的视频,这对于吸引年轻人有着极大的优势。
Q:对短时间广告,是否意味着它们可以被新的AI技术所替代?
A:对于一些短持续时间的广告,AI的确能进行高效、高质量的生成,即使现在的多模态视频以一分钟
为限制,因为大部分镜头的持续时间远小于一分钟。即使是一些只有几秒钟的短视频,也能以高效的
方式生成。但是如果是镜头与镜头之间的衔接,主要取决于判断和匹配能力,需要注意的是如果这个
能力不强,可能会导致衔接的效果不佳。
Q:Sora模型的商业化发展,产业内后续有何看法?
A:商业化的情况相对复杂。对于中国区来说,由于外部政策影响,获取测试账号较为困难,申请流程
甚至可能比OpenAI初次推出GPT时更复杂。而对于海外市场,由于相对开放的政策环境,我预测很多
海外影视公司、动画公司甚至短视频网红等可能会迅速跟进,开展Sora模型的应用。
Q:Sora模型是否对模拟和渲染虚拟环境以及动态生成3D资产有帮助?是否与像苹果的M2,空间视频
以及一些3D资产有结合性?
A:Sora模型在MR领域的应用确实有一定的潜力,其可以创建优秀的虚拟环境并生成3D资产。具体到
与M2等交互类游戏的整合,我认为Sora模型可以服务于一些短镜头或短事件的体验,比如可用于后端
服务端实现快速的实时渲染。此外,我预测未来可能有游戏开发者或工作室利用Sora模型接口开发生
成式多模态的游戏,应用可能包括养成类游戏或者第一视觉FPS游戏等。
Q:对于Sora模型可能基于文本生成视频,或者基于现有的图像或视频进行编辑,执行广泛的图像和
视频任务,如会不会覆盖原有的编辑工具,您有何看法?
A:Sora模型确实展示了在图像和视频编辑任务中很大的潜力,包括创建完美循环的视频动画、静态图
像等。其能够基于文本生成视频,也可以基于现有的图像或者视频进行编辑。未来可能会有基于sara
的新编辑工具出现,对原有播主产生一定的颠覆性影响,这也是避免不了的发展趋势。
Q:如何看待视频和视频之间的粘合以及未来可能出现的新辅助类工具?
A:这个确实是未来发展的重要方向,尤其是当我们处理视频内容、图像或者网络编辑等多模态的场景
时。这是一个新的生产场景,必然会带来新的生产工具。虽然目前还没有特定的工具进行實践,但在
美国已经有一些创业公司开始研究此类工具,这可以看作是工作流领域的一种迭代或创新。关于是否
有大型公司会投入这个领域的问题,我并不确定,但我相信大概率应该会有创业公司自己去做。
Q:对比Google模型和OpenAI的大型模型,你认为有哪些差异?
A:目前看来,Google可能会更专注于研究领域,例如它们在处理超长文本领域的研究,虽然我们也
在该领域有所涉猎,但相较之下Google可能会走得更远,将这个能力进一步提升。然而,尽管Google
在研发上有优势,但在将技术前沿性转化为产品的能力上,OpenAI的表现会更加出色。这是因为公开
的科研成果对所有人开放,大家实际竞争的是将学术成果整合进产业的能力,而在这一点上,OpenAI
的预见性和先进性更强,它的综合能力也更具竞争力。
Q:当前OpenAI的领先地位是如何得到的?
A:OpenAI的领先地位主要来自于它的大模型和硬件资源,这使得它在全球范围内都保持领先。而在
处理像视频这样的多模态问题方面,我们也取得了一些突破,比如通过AI技术产生长达60秒的视频,
这在目前的市场对手中是领先的。
Q:有没有对AI及多模态模型的未来发展的一些看法?
A:对,我认为多模态模型未来的发展潜力巨大,无论是在处理视频,图像还是网页编辑等方面,都将
有很大发展。尤其是中国的大型AI模型在全球的发展中,也在持续跟进并有机会追赶国际潮流。并
且,国内的AI研发在很多垂直的细分领域也有所突破,展示出强大的发展潜力。
马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人:石先生/雷先生