免费php mysql空间-看不下去AI胡说八道，英伟达出手给大模型安了个“护栏”

2023/05/04域名新闻

大模型们胡说八道太严重，英伟达看不下去了。
他们正式推出了一个新东西，帮助大模型说该说的话，并回避不应该触碰的论题。
这个新东西名叫“护栏技能”（NeMo Guardrails），相当于给大模型加上一堵安全围墙，既能控制它的输出、又能过滤输入它的内容。
一方面，用户诱导大模型生成进犯性代码、输出不道德内容的时候，它就会被护栏技能“捆绑”，不再输出不安全的内容。
另一方面，护栏技能还能保护大模型不受用户的进犯，帮它挡住来自外界的“歹意输入”。
图片
现在，这个大模型护栏东西已经开源，一起来看看它的作用和生成办法。
防止大模型胡说八道的三类“护栏”

依据英伟达介绍，目前NeMo Guardrails总共供给三种方法的护栏技能:
论题限制护栏（topical guardrails）、对话安全护栏(safety guardrails)和进犯防护护栏(security guardrails)。
图片
论题限制护栏，简略来说就是“防止大模型跑题”。
大模型具有更丰富的想象力，相比其他AI更容易完结创造性的代码和文字编写工作。
但对于特定场景应用如写代码、当客服而言，至少用户不期望它在解决问题时“脱离方针范围”，生成一些与需求无关的内容。
这种情况下就需要用到论题限制护栏，当大模型生成超出论题范围的文字或代码时，护栏就会将它引导回限制的功能和论题上。
对话安全护栏，指防止大模型输出时“胡说八道”。
胡说八道包含两方面的情况。
一方面是大模型生成的答案中包含事实性错误，即“听起来很有道理，但其实彻底不对”的东西;
另一方面是大模型生成带成见、歹意的输出，如在用户引导下说脏话、或是生成不道德的内容。
进犯防护护栏，即防止AI平台受到来自外界的歹意进犯。
这儿不仅包含诱导大模型调用外部病毒APP从而进犯它，也包含黑客主动经过网络、歹意程序等方法进犯大模型。护栏会经过各种方法防止这些进犯，防止大模型瘫痪。
所以，这样的护栏要如何打造?
如何打造一个大模型“护栏”?

这儿咱们先看看一个标准的“护栏”包含哪些要素。
具体来说，一个护栏应当包含三方面的内容，即格局标准（Canonical form）、消息(Messages)和交互流(Flows)。
首先是格局标准，即面对不同问题的问法时，规定大模型要输出的内容。
例如被问到“XX文章是什么”，大模型必须给出特定类型的“文章”，而非其他东西;被问到“谁宣布了什么”，大模型必须给出“人名”，而非其他答复。
图片
然后是消息界说，这儿以“用户问好”论题为例，大模型能够输出这些内容:
图片
最后是交互流的界说，例如告诉大模型，怎么才是问好用户的最好方法:
图片
一旦问好用户的机制被触发，大模型就会进入这个护栏，规规矩矩地问好用户。
免费php mysql空间,具体工作流程如下:首先，将用户输入转换成某种格局标准（canonical form），据此生成对应的护栏;随后，生成举动过程，以交互流指示大模型一步步完结对应的操作;最后，依据格局标准生成输出。
图片
类似的，咱们就能给大模型界说各式各样的护栏，例如“应对用户辱骂”的护栏。
这样即使用户说出“你是个傻瓜”，大模型也能学会冷静应对:
图片
目前，英伟达正在将护栏技能整合进他们的AI框架NeMo中，这是个方便用户创立各种AI模型、并在英伟达GPU上加快的框架。
对“护栏”技能感兴趣的小伙伴们，能够试一试了~

免费php mysql空间-看不下去AI胡说八道，英伟达出手给大模型安了个“护栏”

admin

共有 0 条评论

发表回复取消回复

admin

共有 0 条评论

发表回复 取消回复

发表回复取消回复