网站服务-不做Sora背后:百度的多模态路线是什么?
当ChatGPT掀起国内“百模大战”,百度率先交卷文心一言。
Sora再掀视频生成风潮,却传出李彦宏内部说话“Sora无论多么火,百度都不去做”。
一时刻,困惑、不解、争议,纷至沓来。
面临这些声响,在刚刚结束的百度国际大会会后采访中,李彦宏公开回应。
他不只重申了不做Sora的决定,而且说明了百度是怎么运用和开展多模态的。
在大会发布中,李彦宏发布了百度从年头开端重点攻克的iRAG技能,这项技能旨在处理AI范畴最棘手的”错觉”问题。风趣的是,这个开端正好是在Sora风正热之时。
百度的挑选背面原因,究竟是什么?
元宇宙 科幻 赛博朋克 大模型 (2)绘画
图源备注:图片由AI生成,图片授权服务商Midjourney
加速处理错觉问题
网站服务,先从iRAG技能看。它所处理的是图片生成的错觉问题。
在年头,不做Sora,回头将资源放在错觉处理上。为什么?
结合这届百度国际大会主题“使用来了”来了解:
错觉已经成为制约大模型使用大规模落地的一大拦路虎。
现代社会对计算器已有肯定的信赖,只要确保输入是对的,就可以百分百定心地把计算结果用到下一步作业流程中。
但关于已知或许存在错觉的大模型来说,还敢给予同等的信赖吗?
有错觉,即意味着模型行为不彻底可控,不能彻底定心的自动化作业流程,依然需求人工介入。
AI使用正面临这样的困境。
事实上,ChatGPT面世之后,大模型的几个主要改善方向都是经过不同办法来处理大模型错觉问题。
长上下文窗口,让模型获取更完好的输入,削减因信息不全发生的过错推理。
RAG(检索增强生成),检索外部常识库补偿信息,补偿模型参数存储常识的不足。
联网查找,获取实时、动态的在线信息,扩展模型的常识鸿沟。
慢思考,经过分步推理削减直觉性过错,提高推理进程的可解释性。
乃至从某种意义上说,多模态技能也是让模型多一种信息输入途径,不用在“看不见”视觉信息的情况下为了完成任务凭空假造。
……
所以再次总结一下,为什么处理错觉问题是现在AI职业的燃眉之急?
从技能层面,不处理错觉问题就难以预测和操控模型的行为鸿沟。
从使用的视点来看,错觉问题阻止了用户对AI产品的信赖。
从产业视点,处理了错觉问题才干扩展AI可使用的场景规模,提高AI体系的商业价值。
再将目光转向百度,处理AI错觉问题,恰恰也是百度的“主战场”。
iRAG,全称Image-based Retrieval-Augmented Generation,是一种全新的检索增强文生图范式,结合了百度多年的查找积累,协助大幅提升图片的生成可控性和准确性。
其中心是将百度查找的亿级图片资源与文心大模型的生成才能相结合,经过联合优化,让生成图片愈加实在可信。
具体而言,iRAG先使用检索模块在海量图库中找出与文本描绘最相关的若干图片,然后提取其视觉特征,与文本特征同时输入到生成模块。生成模块在此基础上,对图画进行了解、重组、立异,终究输出高质量、符合需求的全新图片。
可以说,iRAG奇妙地将认知智能(检索)与生成智能(创造)结合在一起,取长补短,相得益彰。
一方面,海量图画的参考让生成更”接地气”,大幅削减了错觉、违禁内容等问题。
另一方面,强壮的生成才能让输出图片更多样、更具创意,远非单纯的拼贴、修正那么简略。
更重要的是,iRAG在许多职业范畴都具有广阔使用远景,尤其能明显下降AI生图的创造本钱。比如在影视制作、动漫设计中,iRAG可完成从文本脚本直接生成高质量的分镜、概念图,大幅削减中间环节的人工干预。
多模态,不止Sora一条路
明晰了错觉问题是AI职业的优先级,百度还需求回答另一种质疑:多模态已经是公认迈向AGI的重要一步。
多模态有助于增强AI体系的感知和了解才能。经过处理视觉、语音、文本等不同模态的信息,AI可以更全面地感知环境,增强其认知和交互才能,与人类经过多种感官认知国际保持一致。
但这儿要明晰的是,Sora道路并不能代表多模态技能的全部。
首先,投入做Sora代表的通用视频生成模型投入的本钱非常高昂。市场研究机构Factorial Funds报告预算,Sora模型至少需求在4200~10500块英伟达H100GPU上训练1个月。而假如Sora得到大规模使用,为了满足需求,需求约72万张Nvidia H100GPU,假如按照每片英伟达H100AI加速卡3万美元本钱计算,72万片需求216亿美元。
而现在通用视频生成模型在技能老练度上距离iPhone时刻也还有较远的距离。此前与艺术家合作短片《Air Head》后来就被指出实际有许多人工参加,预算只有约1/300的AI资料用到了终究成片里。
图片
△图源fxguide.com
现在市场视频生成使用从短剧内容生产到影视特效制作,许多尽力都在探索视频生成技能的想象空间,但尚未构成老练的商业化计划和安稳的营收模式。
其实,关于做多模态来说,也存在Sora之外的多种路径。
Meta首席科学家、图灵奖得主Yann LeCun就一直坚持“国际模型”道路。他以为生成视频的进程与依据国际模型的因果预测彻底不同,经过生成像从来对国际进行建模是一种糟蹋,注定会失败。
斯坦福教授李飞飞则垂青具身智能,她以为AI只是看是不行的,“看,是为了行动和学习”。比如经过大言语模型,让一个机器人手臂执行任务,翻开一扇门、做一个三明治以及对人类的口头指令做出反响等。
百度对多模态技能的了解,最近也在数字人场景得到集中体现。
百度从2019年起就开端布局数字人范畴,涉及语音克隆、唇形同步、表情动作捕捉等一系列关键技能。到现在百度“曦灵”数字人、“慧播星”数字人已广泛使用于新闻播报、直播电商等场景。
正如李彦宏着重的,百度不做Sora,并不意味着在多模态赛道上缺席了。
数字人语音与口型、动作的同步问题,或许终究可以靠通用场景下的视频生成完成,但需求很长时刻,本钱很高。
但既然可以用更简略、本钱更低的办法做到,为什么不先把事务跑起来呢?
首先,通用计划寻求”大而全”,试图用单一模型覆盖所有场景,但这在技能上尚不老练,往往带来作用的良莠不齐;而数字人聚集特定垂直范畴,可以更精准地优化模型,寻求极致的人机交互体会。
其次,视频生成好就是固定的资料了,缺乏实时交互才能;而AI驱动的数字人却可以完成动态多轮对话,乃至还可以依据用户反应实时调整状态,愈加符合实在使用的需求。
最终,视频生成对算力和数据的要求极高,当时可以真正驾驭的企业凤毛麟角,商业化进程困难重重;相比之下,数字人技能门槛相对较低,且使用场景明晰,更容易构成可仿制的商业模式,开启数据飞轮。
AI大规模落地需求什么条件?
不论是投入处理图片错觉问题,仍是从事务需求动身开展多模态的道路,百度的方针好像都围绕着李彦宏所说的:让技能被更多人用起来。
李彦宏这段时刻不断着重的一个观点是“模型本身不发生直接价值”,只有在模型之上开发各式各样使用,在各种场景找到所谓的PMF,才干真正发生价值。
百度需求做的,是为个人和企业提供开发使用的基建,协助更多人、更多企业打造出数百万“超级有用”的使用。
久远来看,错觉问题的处理为职业使用消除了妨碍,使得AI技能可以在更广泛的范畴得到使用和推广。
用事务需求的多模态技能支持事务先跑起来,能让更多的AI使用场景为我们所用。
同时,许多的职业使用所发生的数据,又能为AGI的开展提供丰富的营养,构成良性循环,推动数据飞轮的高速工作,然后加快我们迈向AGI的步伐。
共有 0 条评论