国内免备案空间-谷歌最新技术:通过搜索引擎,极大增强ChatGPT等模型的准确率

由于Transformer的呈现,使得ChatGPT等大言语模型在处理自然言语使命上的才能得到了大幅度提高。但生成的内容却包含大量过错或过期的信息,一起缺少事实性评价系统,来验证内容的真伪。
为了全面评价大言语模型对国际改动的适应才能和内容的真实性,谷歌AI研究团队发布了一篇名为《通过搜索引擎常识增强大言语模型的准确性》的论文。国内免备案空间,提出了一种FRESHPROMPT的办法,可通过从搜索引擎获取实时信息,来提高ChatGPT、Bard等大型言语模型的准确性。
研究人员构建了一个新的问答基准测验集FRESHQA,其间包含600个各类真实问题,答案改动频率分为“永不改动”“改动缓慢”“改动频频”和“过错条件”四大类别。
一起,还规划了严厉形式和宽松形式两种评价办法,前者要求答复中的一切信息有必要准确最新,后者仅评价首要答复的正确性。
试验成果显示,FRESHPROMPT显着提高了大言语模型在FRESHQA上的准确率。例如,GPT-4在FRESHPROMPT的严厉形式协助下,比原始GPT-4提高了47%准确率。
此外,比较于直接扩大模型的参数,这种融合搜索引擎的办法愈加灵活,可认为已有模型供给动态的外部常识源。试验成果也证明FRESHPROMPT能够显着提巨大言语模型在需求实时常识的问题上的准确率。
论文地址:https://arxiv.org/abs/2310.03214
开源地址:https://github.com/fresh大言语模型s/freshqa (正在准备中,将很快开源)
图片
从谷歌论文内容来看,FRESHPROMPT的办法首要由5大模块组成。
构建FRESHQA基准测验集
为了全面评价大言语模型对改动国际的适应才能,研究人员首先构建了FRESHQA基准测验集,其包含600个真实的开放域问题,根据答案改动的频率能够分为“永不改动”“改动缓慢”“改动频频”和“过错条件”四大类别。
1)永不改动:答案根本不会改动的问题。
2)改动缓慢:答案每几年改动一次的问题。
3)改动频频:答案每年或更短时刻内就可能改动的问题。
4)过错条件:包含不正确条件的问题。
图片
这些问题包含各种话题,具有不同的难度级别。FRESHQA的关键特点是答案可能会随时刻改动,所以模型需求具备对国际改动的敏感认知才能。
严厉形式与宽松形式评价
研究人员提出了两个评价形式:严厉形式要求答复中一切信息有必要准确最新,宽松形式仅评价首要答案的正确性。
这供给了更全面和细致的方法来丈量言语模型的事实性。
根据FRESHQA评价不同大言语模型
在FRESHQA上,研究人员比较了包含不同参数的大言语模型,包含GPT-3、GPT-4、ChatGPT等。评价采用严厉形式(要求无过错)和宽松形式(仅评价首要答案)。
图片
成果发现,一切模型在需求实时常识的问题上表现较差,尤其是频频改动和过错条件的问题。这阐明当前大言语模型对改动国际的适应力存在局限。
从搜索引擎中检索相关信息
为提巨大言语模型的事实性,FRESHPROMPT的核心思路是从搜索引擎中检索问题相关的实时信息。
图片
具体而言,给定一个问题,FRESHPROMPT会将其作为关键词查询谷歌搜索引擎,获取包含答案框、网页成果、“其他用户也问”等多种类型的搜索成果。
通过稀少练习整合检索信息
FRESHPROMPT使用稀少练习(few-shot learning)的方法,将检索到的各个证据以统一格式整合到大言语模型的输入提示中,一起供给几个演示,阐明如何综合这些证据得出正确答复。
这样能够教会大言语模型去理解这个使命,并整合不同来源的信息来推理出最新准确的答案。
图片
谷歌表示,FRESHPROMPT对提巨大言语模型的动态适应才能具有重要意义,这也是大言语模型未来技术研究的一个重要方向。

共有 0 条评论

发表评论

邮箱地址不会被公开。 必填项已用*标注