宇宙链 宇宙链
Ctrl+D收藏宇宙链

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏”

作者:

时间:1900/1/1 0:00:00

来源:量子位

作者:萧箫

大模型们胡说八道太严重,英伟达看不下去了。

他们正式推出了一个新工具,帮助大模型说该说的话,并回避不应该触碰的话题。

这个新工具名叫“护栏技术”,相当于给大模型加上一堵安全围墙,既能控制它的输出、又能过滤输入它的内容。

一方面,用户诱导大模型生成攻击性代码、输出不道德内容的时候,它就会被护栏技术“束缚”,不再输出不安全的内容。

另一方面,护栏技术还能保护大模型不受用户的攻击,帮它挡住来自外界的“恶意输入”。

Kraken与一级方程式车队Williams Racing达成合作:金色财经报道,Kraken与一级方程式车队Williams Racing签署了为期多年的全球协议,通过Kraken的NFT平台出售作品的艺术家,将在某些比赛中将他们的NFT展示在赛车的尾翼上。该公司没有提供财务条款的细节。(彭博社)[2023/3/28 13:31:35]

现在,这个大模型护栏工具已经开源,一起来看看它的效果和生成方法。

防止大模型胡言乱语的三类“护栏”

根据英伟达介绍,目前NeMoGuardrails一共提供三种形式的护栏技术:

话题限定护栏、对话安全护栏和攻击防御护栏。

加密矿企Core Scientific起诉Celsius,要求支付逾期账单:10月22日消息,根据提交的法庭文件,矿业公司Core Scientific指控加密贷款机构Celsius自申请第11章破产保护以来拒绝支付账单,Core称付款违约正在威胁其金融稳定。根据该文件,Celsius在今年8月、9月共计欠款2,104,683.28美元。Core每天继续损失约53,000 美元,以支付Celsius拒绝支付申请后增加的电费。

在法庭文件中,Celsius称Core Scientific延迟了挖矿设备的部署,并为他们提供的电力少于合同规定。Celsius正寻求法院裁定Core藐视法庭,并要求其履行义务;同时,Core请求法院强制Celsius支付逾期账单或允许其履行合约。Celsius要么需要遵守合约,要么Core和Celsius必须在Celsius导致另一个商业伙伴(Core)进入破产程序之前终止他们的关系。

Celsius和Core之间的纠纷定于下个月由美国破产法 Martin Glenn举行听证会。(Cointelegraph)[2022/10/22 16:35:13]

话题限定护栏,简单来说就是“防止大模型跑题”。

Meta与数字时尚初创公司DressX合作推出虚拟服装:金色财经消息,Meta正在与数字时尚初创公司DressX合作,在Meta的AvatarStore上提供新的时尚外观。DressX服装于7月19日开始发售,用户可以在包括Messenger、Facebook、Instagram和头戴VR设备Quest在内的Meta平台上购买和穿着它们。(TheBlock)[2022/7/20 2:24:38]

大模型具备更丰富的想象力,相比其他AI更容易完成创造性的代码和文字编写工作。

但对于特定场景应用如写代码、当客服而言,至少用户不希望它在解决问题时“脱离目标范围”,生成一些与需求无关的内容。

这种情况下就需要用到话题限定护栏,当大模型生成超出话题范围的文字或代码时,护栏就会将它引导回限定的功能和话题上。

拉丁美洲加密货币交易所 Bitso 已在哥伦比亚正式推出其应用:5月19日消息,拉丁美洲加密货币交易所 Bitso 已在哥伦比亚正式推出其应用,该国用户可以使用连接该国主要银行的在线支付系统,通过法币购买比特币、以太坊等加密货币。Bitso 首席执行官 Daniel Vogel 表示,预计会在未来几个月内接受监管机构的指导。(The Block)[2022/5/19 3:27:21]

对话安全护栏,指避免大模型输出时“胡言乱语”。

胡言乱语包括两方面的情况。

一方面是大模型生成的答案中包括事实性错误,即“听起来很有道理,但其实完全不对”的东西;

另一方面是大模型生成带偏见、恶意的输出,如在用户引导下说脏话、或是生成不道德的内容。

攻击防御护栏,即防止AI平台受到来自外界的恶意攻击。

这里不仅包括诱导大模型调用外部病APP从而攻击它,也包括黑客主动通过网络、恶意程序等方式攻击大模型。护栏会通过各种方式防止这些攻击,避免大模型瘫痪。

所以,这样的护栏要如何打造?

如何打造一个大模型“护栏”?

这里我们先看看一个标准的“护栏”包含哪些要素。

具体来说,一个护栏应当包括三方面的内容,即格式规范、消息和交互流。

首先是格式规范,即面对不同问题的问法时,规定大模型要输出的内容。

例如被问到“XX文章是什么”,大模型必须给出特定类型的“文章”,而非别的东西;被问到“谁发表了什么”,大模型必须给出“人名”,而非别的回答。

然后是消息定义,这里以“用户问候”话题为例,大模型可以输出这些内容:

最后是交互流的定义,例如告诉大模型,怎么才是问候用户的最好方式:

一旦问候用户的机制被触发,大模型就会进入这个护栏,规规矩矩地问候用户。

具体工作流程如下:首先,将用户输入转换成某种格式规范,据此生成对应的护栏;随后,生成行动步骤,以交互流指示大模型一步步完成对应的操作;最后,根据格式规范生成输出。

类似的,我们就能给大模型定义各种各样的护栏,例如“应对用户辱骂”的护栏。

这样即使用户说出“你是个傻瓜”,大模型也能学会冷静应对:

目前,英伟达正在将护栏技术整合进他们的AI框架NeMo中,这是个方便用户创建各种AI模型、并在英伟达GPU上加速的框架。

对“护栏”技术感兴趣的小伙伴们,可以试一试了~

标签:ELSSIUCELCelsiusELSA币celsius币用途WCELO币

以太坊价格热门资讯
Bitget全球加密资产持有率调查研究:千禧世代是加密资产爱好者的主要群体

近期,Bitget进行了一项关于人口年龄层变化与不同世代周期,对于加密资产持有率发展进程的研究.

1900/1/1 0:00:00
明星公链陨落,Helium是如何把一手好牌打烂的?

原文作者:Jaleel、Leo,BlockBeats4月20日,Helium宣布已正式完成向Solana网络的迁移,然而社区反应却是一片唏嘘.

1900/1/1 0:00:00
金色早报 | PEPE市值突破15亿美元 24小时交易量近17亿美元

头条 ▌BRC-20代币过去24小时交易量突破450万美元金色财经报道,数据显示,比特币铭文代币Ordi现报6.73美元,24小时涨幅78.51%,当前总市值已达1.41亿美元.

1900/1/1 0:00:00
蓝筹拉胯 Blur熄火 加密KOL们如何看待当前NFT寒冬?

当Blur这台NFT市场的流动性发动机也逐渐熄火: Blur?自身乃至各?NFT?市场的?ETH?交易总量都在不断下滑当Doodles、CloneX、Moonbirds三个「老蓝筹」不断下跌成为「NFT三傻」.

1900/1/1 0:00:00
BTC交易费用飙涨,矿工的春天来了,可能带来哪些问题?

随着近两周BRC-20走热,比特币交易费用飙升。BTC.com数据显示,BTC每日手续费从两周前的13.6BTC增长至403.9BTC,两周增幅2870%?,创下自2018年1月20日以来的最高纪录.

1900/1/1 0:00:00
4月份NFT销售额约为7.32亿美元,环比下降5.76%

博链财经BroadChain获悉,5月1日,据Bitcoin.com引援CryptoSlam数据,4月份NFT销售额为7.3212亿美元,与3月份的7.7688亿美元相比下降5.76%.

1900/1/1 0:00:00