长沙虚拟主机-谷歌最新技术:通过搜索引擎,极大增强ChatGPT等模型的准确率

由于Transformer的呈现,使得ChatGPT等大言语模型在处理自然言语使命上的才能得到了大幅度提高。但生成的内容却包括大量过错或过时的信息,一起缺少事实性评价体系,来验证内容的真伪。
为了全面评价大言语模型对国际改动的适应才能和内容的实在性,谷歌AI研讨团队发布了一篇名为《经过搜索引擎常识增强壮言语模型的准确性》的论文。(长沙虚拟主机)提出了一种FRESHPROMPT的办法,可经过从搜索引擎获取实时信息,来提高ChatGPT、Bard等大型言语模型的准确性。
研讨人员构建了一个新的问答基准测验集FRESHQA,其间包括600个各类实在问题,答案改动频率分为“永不改动”“改动缓慢”“改动频频”和“过错条件”四大类别。
一起,还规划了严厉形式和宽松形式两种评价办法,前者要求答复中的所有信息有必要准确最新,后者仅评价首要答复的正确性。
试验成果显示,FRESHPROMPT显着提高了大言语模型在FRESHQA上的准确率。例如,GPT-4在FRESHPROMPT的严厉形式协助下,比原始GPT-4提高了47%准确率。
此外,相比于直接扩展模型的参数,这种融合搜索引擎的办法愈加灵敏,可认为已有模型供给动态的外部常识源。试验成果也证明FRESHPROMPT可以显着提巨大言语模型在需求实时常识的问题上的准确率。
论文地址:https://arxiv.org/abs/2310.03214
开源地址:https://github.com/fresh大言语模型s/freshqa (正在筹备中,将很快开源)
图片
从谷歌论文内容来看,FRESHPROMPT的办法首要由5大模块组成。
构建FRESHQA基准测验集
为了全面评价大言语模型对改动国际的适应才能,研讨人员首要构建了FRESHQA基准测验集,其包括600个实在的开放域问题,根据答案改动的频率可以分为“永不改动”“改动缓慢”“改动频频”和“过错条件”四大类别。
1)永不改动:答案根本不会改动的问题。
2)改动缓慢:答案每几年改动一次的问题。
3)改动频频:答案每年或更短时间内就可能改动的问题。
4)过错条件:包括不正确条件的问题。
图片
这些问题包括各种话题,具有不同的难度级别。FRESHQA的要害特点是答案可能会随时间改动,所以模型需求具备对国际改动的灵敏认知才能。
严厉形式与宽松形式评价
研讨人员提出了两个评价形式:严厉形式要求答复中所有信息有必要准确最新,宽松形式仅评价首要答案的正确性。
这供给了更全面和详尽的方式来测量言语模型的事实性。
根据FRESHQA评价不同大言语模型
在FRESHQA上,研讨人员比较了包括不同参数的大言语模型,包括GPT-3、GPT-4、ChatGPT等。评价采用严厉形式(要求无过错)和宽松形式(仅评价首要答案)。
图片
成果发现,所有模型在需求实时常识的问题上体现较差,尤其是频频改动和过错条件的问题。这说明当时大言语模型对改动国际的适应力存在局限。
从搜索引擎中检索相关信息
为提巨大言语模型的事实性,FRESHPROMPT的中心思路是从搜索引擎中检索问题相关的实时信息。
图片
具体而言,给定一个问题,FRESHPROMPT会将其作为要害词查询谷歌搜索引擎,获取包括答案框、网页成果、“其他用户也问”等多种类型的搜索成果。
经过稀疏练习整合检索信息
FRESHPROMPT使用稀疏练习(few-shot learning)的方式,将检索到的各个依据以统一格式整合到大言语模型的输入提示中,一起供给几个演示,说明如何综合这些依据得出正确答复。
这样可以教会大言语模型去理解这个使命,并整合不同来历的信息来推理出最新准确的答案。
图片
谷歌表示,FRESHPROMPT对提巨大言语模型的动态适应才能具有重要意义,这也是大言语模型未来技术研讨的一个重要方向。
图片

共有 0 条评论

发表评论

邮箱地址不会被公开。 必填项已用*标注