国内免备案空间-谷歌最新技术：通过搜索引擎，极大增强ChatGPT等模型的准确率

2023/10/16域名新闻

由于Transformer的呈现，使得ChatGPT等大言语模型在处理自然言语使命上的才能得到了大幅度提高。但生成的内容却包含大量过错或过期的信息，一起缺少事实性评价系统，来验证内容的真伪。
为了全面评价大言语模型对国际改动的适应才能和内容的真实性，谷歌AI研究团队发布了一篇名为《通过搜索引擎常识增强大言语模型的准确性》的论文。国内免备案空间,提出了一种FRESHPROMPT的办法，可通过从搜索引擎获取实时信息，来提高ChatGPT、Bard等大型言语模型的准确性。
研究人员构建了一个新的问答基准测验集FRESHQA，其间包含600个各类真实问题，答案改动频率分为“永不改动”“改动缓慢”“改动频频”和“过错条件”四大类别。
一起，还规划了严厉形式和宽松形式两种评价办法，前者要求答复中的一切信息有必要准确最新，后者仅评价首要答复的正确性。
试验成果显示，FRESHPROMPT显着提高了大言语模型在FRESHQA上的准确率。例如，GPT-4在FRESHPROMPT的严厉形式协助下，比原始GPT-4提高了47%准确率。
此外，比较于直接扩大模型的参数，这种融合搜索引擎的办法愈加灵活，可认为已有模型供给动态的外部常识源。试验成果也证明FRESHPROMPT能够显着提巨大言语模型在需求实时常识的问题上的准确率。
论文地址:https://arxiv.org/abs/2310.03214
开源地址:https://github.com/fresh大言语模型s/freshqa （正在准备中，将很快开源）
图片
从谷歌论文内容来看，FRESHPROMPT的办法首要由5大模块组成。
构建FRESHQA基准测验集
为了全面评价大言语模型对改动国际的适应才能，研究人员首先构建了FRESHQA基准测验集，其包含600个真实的开放域问题，根据答案改动的频率能够分为“永不改动”“改动缓慢”“改动频频”和“过错条件”四大类别。
1）永不改动:答案根本不会改动的问题。
2）改动缓慢:答案每几年改动一次的问题。
3）改动频频:答案每年或更短时刻内就可能改动的问题。
4）过错条件:包含不正确条件的问题。
图片
这些问题包含各种话题，具有不同的难度级别。FRESHQA的关键特点是答案可能会随时刻改动，所以模型需求具备对国际改动的敏感认知才能。
严厉形式与宽松形式评价
研究人员提出了两个评价形式:严厉形式要求答复中一切信息有必要准确最新，宽松形式仅评价首要答案的正确性。
这供给了更全面和细致的方法来丈量言语模型的事实性。
根据FRESHQA评价不同大言语模型
在FRESHQA上，研究人员比较了包含不同参数的大言语模型，包含GPT-3、GPT-4、ChatGPT等。评价采用严厉形式（要求无过错）和宽松形式(仅评价首要答案)。
图片
成果发现，一切模型在需求实时常识的问题上表现较差，尤其是频频改动和过错条件的问题。这阐明当前大言语模型对改动国际的适应力存在局限。
从搜索引擎中检索相关信息
为提巨大言语模型的事实性，FRESHPROMPT的核心思路是从搜索引擎中检索问题相关的实时信息。
图片
具体而言，给定一个问题，FRESHPROMPT会将其作为关键词查询谷歌搜索引擎，获取包含答案框、网页成果、“其他用户也问”等多种类型的搜索成果。
通过稀少练习整合检索信息
FRESHPROMPT使用稀少练习（few-shot learning）的方法，将检索到的各个证据以统一格式整合到大言语模型的输入提示中，一起供给几个演示，阐明如何综合这些证据得出正确答复。
这样能够教会大言语模型去理解这个使命，并整合不同来源的信息来推理出最新准确的答案。
图片
谷歌表示，FRESHPROMPT对提巨大言语模型的动态适应才能具有重要意义，这也是大言语模型未来技术研究的一个重要方向。

国内免备案空间-谷歌最新技术：通过搜索引擎，极大增强ChatGPT等模型的准确率

admin

共有 0 条评论

发表回复取消回复

admin

共有 0 条评论

发表回复 取消回复

发表回复取消回复