星空云-互联网公司投入大模型的原动力:反哺自己的「根据地」
大模型热度迟迟不退,有才能的企业纷繁抢占生态位。百度、阿里 、华为、商汤、科大讯飞、360等大型互联网公司,都现已在国内展开了“诸神之战”。
在媒体报道中,参与了大模型竞技的公司几乎都是大公司。这是因为投入大模型,最直观的需求便是“钱”。大厂能成为“开卷”的主力军,首要是因为大模型的开发练习,资金、技能门槛都很高,并非创业者以及小公司能够轻松吃下的蛋糕。
例如国盛证券的一份研报显现,GPT-3练习一次的本钱约为140万美元,关于一些更大的LLM模型,练习本钱介于200万美元至1200万美元之间。这一本钱于全球科技大企业而言并不廉价,但也在可接受范围内。
将大模型的投入“坦诚相告”
因为“贵”,投身大模型的很多企业其实都没告诉出资者们,自己花了多少钱,估计也是怕出资者看到后会发生认知偏差。
最近科大讯飞发了财报,却是对这一点很坦诚,2023年一季度科大讯飞的利润转亏,其管理层明确表明,除了一些上一年留传的特别问题外,是因为公司在2022年12月15日启动了“1+N认知智能大模型”的专项攻关,将于2023年5月6日正式发布讯飞星火大模型,攻关项目的新增投入一定程度上影响了当期利润。
科大讯飞的掌门人刘庆峰说得很明白:“针对大模型的技能投入,咱们该投的投、绝不手软。”所以在职业内,咱们无妨都坦诚点,究竟大模型现已成为了“阳谋”,花钱投入也是为收成果实打根底。当年马斯克不便是嫌再次出资OpenAI太贵,后来又想去“摘桃子”被拒之门外了吗?
除了“投钱”以外,大模型还需求“投人”,在这一点上,国内外厂商的争抢都很激烈。“谷歌大脑”的大模型人才,从上一年底到今年被OpenAI挖走了好几个;节点财经也听说,某一线大厂开价140万美元年薪,挖脚OpenAI的职工。在国内,有公司广发英豪帖,把公司的大部分股权拿出来奖赏研制人才。
可是有NLP范畴的专家对节点财经表明,做大模型这样的前沿中心技能研制还不能只靠高薪挖人才,更要考虑团队适配程度。
该人士举例,研制大模型是为了落地在事务上,技能团队应该充沛了解事务特性。详细到事务场景,诉求存在着不小的差异,大模型的作用是实时把握这些需求,并对此作出快速呼应。
听起来理论很简略,落地可一点都不容易,如果技能团队没有磨合、不适配事务,很可能会导致迭代落后于事务改变。
不过科大讯飞却表明,未来一段时间公司不需求太多额外的人力投入,现在讯飞的团队和资金彻底靠得住。有业内人士分析,科大讯飞勇于这样说,大概率是因为讯飞研讨院作为人工智能立异研讨院的“元老级”组织,建制完好、联合且没有技能上的内讧。
揭露材料显现,现在讯飞研讨院最中心的研讨团队有200余人,其中有两位是《麻省理工科技评论》“35岁以下科技立异35人”榜单中顶尖的年青科学家,其他团队成员不少是和讯飞一同生长的博士,凭这一点能够能推测出,这群科学家的特色是“懂讯飞的事务诉求”。
此外在算力算法方面,讯飞也是业界公认的AI范畴长时间据守者。揭露材料显现,科大讯飞在Transformer深度神经网络算法方面具有丰富经历,现已使用于讯飞的语音辨认、图文辨认、机器翻译等使命中,并达到世界领先水平;而且讯飞立异提出了知识与大模型交融一致的了解结构X-Reasoner,有望补偿大模型的模糊记忆技能短板。
而在算力投入上,讯飞过去几年就一向牵头承担着国家自主可控人工智能渠道的许多项目、在总部自建有业界一流的数据中心,为大模型练习渠道建设奠定了根底条件,另外它之前与华为、寒武纪、曙光等企业,也都建立了深度算力协作。
所以推出大模型,并且让它具有商业化条件,关于互联网大厂来说并不是一蹴即至的,以科大讯飞为例,它能在认知大模型能完成快速打破、并且勇于宣告和猜测自己的投入,与长时间在人才、算法、算力上的堆集密不可分。
大模型赛道,国家队下场
在这场大模型带来的AI热中,还有很多“吃瓜群众”很难了解科技圈对大模型的拥趸,究竟相似的场景在元世界、AR/VR等范畴都呈现过。但如果深入回顾人工智能的开展历史与传统AI年代的窘境,就能了解大模型之于科技年代的含义。
咱们能够将大模型的开发,星空云,了解为打造AI年代的“操作体系”,就像咱们使用windows体系在电脑中完成作业一样,经由AI年代的“操作体系”大模型,人人都能够是开发者,生产出新产品和新的使用场景。
如果上升到这个层面,各个有才能的国家对大模型的基本要求便是“自主可控”。在360宣告进军大模型范畴时,周鸿祎也在采访中提到,GPT是个生产力工具,这将决议未来世界竞争当中的国运。所以,国家队也在大模型的开发和练习上连续下场。
不久前,中国电信布局了企业版的ChatGPT;复旦大学自然语言处理实验室开发的MOSS 模型现已上线开源;中科院自动化所早在2021年就发布业界首个图文音三模态大模型“紫东·太初”,清华大学、北京大学等院校虽然没有推出大模型,可是也在人工智能范畴世界顶级期刊宣告了多篇大模型相关的重要文章。
某闻名互联网公司的NLP团队负责人对节点财经表明,国家队下场更容易在一些中心数据、参数上占有优势。大模型的练习的本质,便是把语料、数据、参数等当作“食物”喂给大模型,当食物品质越高,大模型就会越智能,还能节省算力。
例如作为“人工智能国家队”,科大讯飞在中文语料上有着显着优势。据了解,在多年认知智能体系研制推行中,科大讯飞堆集了超越50TB的职业语料和每天超10亿人次用户交互的活泼使用,具有大量的机器翻译、语音辨认、语音组成等方面的数据,这些数据均是用于大模型练习和优化自然语言处理模型的重要来历之一。
另外,科大讯飞要搭建的“认知大模型”特别注重多轮对话和逻辑推理,才能在职业中深度使用,这就意味着需求更高质量的数据和参数。以医疗范畴为例,科大讯飞是全国仅有经过国家执业医师资格考试的“人工智能体系”,超越了96.3%的医学考生,现在科大讯飞已累计为底层医生提供了超越5.8亿次、日均超越70多万人次的人工智能辅诊。这就意味着在专业范畴,科大讯飞能够避免一本正经地回复过错消息,使得专业保证性更强,大模型的落地也“更有专长”。
科大讯飞,将人工智能与智慧医疗深度交融
还有不少组织在研报中提到,科大讯飞在教育范畴的使用规划比医疗更大、数据更翔实,未来的增加更强劲。组织们的必定也印证了,在真正有刚需、适合认知智能大模型的当地,国家队下场后能够推进大模型在详细职业上做得更透。
投入大模型,反哺根据地
在大模型的“诸神之战”中还有个特色,即面对着商场上成百上千个大模型出资标的,一级商场和二级商场在出资上都有些不知所措。
有VC合伙人点评,咱们都看好大模型的开展趋势,也更愿意做跟投,可是一级商场的出资人纷歧定都能看懂大模型的落地远景,没有领投人就不知道怎么开端。二级商场的出资者则提出了魂灵疑问,现在宣告投身大模型的公司这么多,怎么判别他们是蹭热点还是真做大模型?我不想买到只会炒作概念的“妖股”。
上海一券商的计算机职业卖方分析师提出了一个解决方案,关于上市公司,能够仔细观察企业有没有让大模型反哺首要事务的开展。
例如百度的文心一言全面嵌入百度内部作业渠道如流、对外也上车了百度apollo等事务;钉钉也表明全面接入阿里的 “通义千问 “大模型,增加了 10余种 AI才能、对外也表明要敞开;WPS AI表明将嵌入金山工作全线产品,科大讯飞的出资者交流会中也表明,大模型关于其根据地事务,有着很大推进含义。
据了解,科大讯飞即将发布的星火大模型是“1+N认知智能大模型”,其中“1”是代表的是大模型练习渠道,“N”是使用于教育、医疗、人机交互、工作、翻译、工业、轿车等多个根据地范畴的专用大模型版本。
能提出这样的模型架构,是因为科大讯飞在职业内是少数既懂B端又懂C端的AI公司。刘庆峰猜测道,超大规划的大模型现已到了一个临界点,下一个阶段应该用更多专业的子模型来协同练习,获得更牢靠的成效。
这个专业阶段的子模型,关联的便是科大讯飞的“根据地事务”,之前咱们看科大讯飞的财报时,其根据地事务的基本盘一向十分稳健,例如上一年即使在微观因素的挤压和疫情影响时,科大讯飞根据地事务仍能完成23%的增加。而基于上文提到语料、数据、参数的优势,专业模型经过和谐联动,根据地事务还能构成效益的提升。
刘庆峰相同猜测道,讯飞在教育、医疗等根据地事务上的大模型成效不比千亿级模型差。特别是想要构成通用范畴的智慧出现,需求把这些模型的知识彼此联接,在全体的大模型中去一致练习,未来就有期望在教育、工作、医疗等使用范畴抢占先机。有不少组织相同猜测道,星火认知大模型反哺事务,会让科大讯飞的根据地事务壁垒更加深沉。
几天前,被誉为“AI界传奇”的陆奇在《我的大模型世界观》演讲中提到了关于大模型的展望,即大模型是渠道型时机,以模型为先的渠道需求以下几个特征:1.开箱即用;2.要有一个足够简略和好的商业模式;3.有自己杀手级使用。
所以星火大模型的发布落地,不仅是简略易用的专业化模型;还能够在科大讯飞自己的教育、医疗、工作等场景打造经典使用;再经由讯飞的敞开渠道敞开出去,让AI认知大模型从“可用”阶段迈入“常用”阶段,带动AI年代的“操作体系”更加普惠化;最后为大模型的使用者发明现金流、发明真金白银的工业附加值,这才是大模型的开展“伟力”。
共有 0 条评论