看不下去AI胡说八道,英伟达出手给大模型安了个“护栏” | 开源

标签: 资讯 大模型 英伟达 | 发表时间:2023-05-03 13:28 | 作者:萧箫
出处:https://www.qbitai.com

萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

大模型们 胡说八道太严重,英伟达看不下去了。

他们正式推出了一个新工具,帮助大模型说该说的话,并回避不应该触碰的话题。

这个新工具名叫“护栏技术”(NeMo Guardrails),相当于给大模型加上一堵安全围墙,既能控制它的输出、又能过滤输入它的内容。

一方面,用户诱导大模型生成攻击性代码、输出不道德内容的时候,它就会被护栏技术“束缚”,不再输出不安全的内容。

另一方面,护栏技术还能保护大模型不受用户的攻击,帮它挡住来自外界的“恶意输入”。

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏” | 开源

现在,这个大模型护栏工具已经 开源,一起来看看它的效果和生成方法。

防止大模型胡言乱语的三类“护栏”

根据英伟达介绍,目前NeMo Guardrails一共提供三种形式的护栏技术:

话题限定护栏(topical guardrails)、对话安全护栏(safety guardrails)和攻击防御护栏(security guardrails)。

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏” | 开源

话题限定护栏,简单来说就是“防止大模型跑题”。

大模型具备更丰富的想象力,相比其他AI更容易完成创造性的代码和文字编写工作。

但对于特定场景应用如写代码、当客服而言,至少用户不希望它在解决问题时“脱离目标范围”,生成一些与需求无关的内容。

这种情况下就需要用到话题限定护栏,当大模型生成超出话题范围的文字或代码时,护栏就会将它引导回限定的功能和话题上。

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏” | 开源

对话安全护栏,指避免大模型输出时“胡言乱语”。

胡言乱语包括两方面的情况。

一方面是大模型生成的答案中包括事实性错误,即“听起来很有道理,但其实完全不对”的东西;

另一方面是大模型生成带偏见、恶意的输出,如在用户引导下说脏话、或是生成不道德的内容。

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏” | 开源

攻击防御护栏,即防止AI平台受到来自外界的恶意攻击。

这里不仅包括诱导大模型调用外部病毒APP从而攻击它,也包括黑客主动通过网络、恶意程序等方式攻击大模型。护栏会通过各种方式防止这些攻击,避免大模型瘫痪。

所以,这样的护栏要如何打造?

如何打造一个大模型“护栏”?

这里我们先看看一个标准的“护栏”包含哪些要素。

具体来说,一个护栏应当包括三方面的内容,即格式规范(Canonical form)、消息(Messages)和交互流(Flows)。

首先是 格式规范,即面对不同问题的问法时,规定大模型要输出的内容。

例如被问到“XX文章是什么”,大模型必须给出特定类型的“文章”,而非别的东西;被问到“谁发表了什么”,大模型必须给出“人名”,而非别的回答。

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏” | 开源

然后是 消息定义,这里以“用户问候”话题为例,大模型可以输出这些内容:

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏” | 开源

最后是 交互流的定义,例如告诉大模型,怎么才是问候用户的最好方式:

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏” | 开源

一旦问候用户的机制被触发,大模型就会进入这个护栏,规规矩矩地问候用户。

具体工作流程如下:首先,将用户输入转换成某种格式规范(canonical form),据此生成对应的护栏;随后,生成行动步骤,以交互流指示大模型一步步完成对应的操作;最后,根据格式规范生成输出。

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏” | 开源

类似的,我们就能给大模型定义各种各样的护栏,例如“应对用户辱骂”的护栏。

这样即使用户说出“你是个傻瓜”,大模型也能学会冷静应对:

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏” | 开源

目前,英伟达正在将护栏技术整合进他们的AI框架NeMo中,这是个方便用户创建各种AI模型、并在英伟达GPU上加速的框架。

对“护栏”技术感兴趣的小伙伴们,可以试一试了~

开源地址:
https://github.com/NVIDIA/NeMo-Guardrails

参考链接:
https://www.nvidia.com/en-us/ai-data-science/generative-ai/nemo-framework/

相关 [ai 英伟达 模型] 推荐:

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏” | 开源

- - 量子位
量子位 | 公众号 QbitAI. 大模型们 胡说八道太严重,英伟达看不下去了. 他们正式推出了一个新工具,帮助大模型说该说的话,并回避不应该触碰的话题. 这个新工具名叫“护栏技术”(NeMo Guardrails),相当于给大模型加上一堵安全围墙,既能控制它的输出、又能过滤输入它的内容. 一方面,用户诱导大模型生成攻击性代码、输出不道德内容的时候,它就会被护栏技术“束缚”,不再输出不安全的内容.

AI vs AI--当AI与自己聊天

- Tim - Solidot
Shawn the R0ck 写道 "最烦人的事情之一莫过于被强迫与一个白痴对话. 但当你发现你最讨厌与之交谈的白痴其实就是你自己的基于人工智能程序的拷贝...康奈尔创造性机器实验室决定看看当AI尝试跟自己交谈会发生什么. 他们的健谈的AI程序Cleverbot与自己进行文本交互,之后朗读出文本并且显示到视频中.

转型AI产品经理,原来不需要学那么深的算法和数学模型

- - IT瘾-tuicool
本文作者李杰克 是我们“AI产品经理大本营”成员,但非常特别是,他是 从互联网产品经理转型成了AI工程师. 李杰克 文章的特点,是 能 通过简单有趣的文字介绍AI技术概念,本文是他的第一篇文章,以飨大家. 这是我的第一篇文章,如果你还没系统地学习过AI算法相关知识,它应该能够让你对AI有些新的认知和理解、多些信心,至少你不会再觉得AI是那么高不可攀、遥不可及,相反,AI是普通人也可以理解、学习和实现的.

你现在可以在笔记本电脑、手机和树莓派上运行 AI 模型 LLaMA

- - 奇客Solidot–传递最新科技情报
单机版大语言模型正快速向我们走来. 自 ChatGPT 发布以来,一些人就对 AI 模型内置的对敏感话题的限制以及需要为使用 API 向 OpenAI 付费而感到沮丧. 大语言模型的开源方案也存在,但距离普通人很遥远,它们或者需要大量的 GPU 显存和存储空间,或者在消费级硬件上达不到 GPT-3 级别的性能.

AI绘画能力的起源:通俗理解VAE、扩散模型DDPM、ViT/Swin transformer_v_JULY_v的博客-CSDN博客

- -
2018年我写过一篇博客,叫:《. 一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如. 随着2019 CenterNet的发布,特别是2020发布的DETR(End-to-End Object Detection with Transformers)之后,自此CV迎来了生成式下的多模态时代.

一家公司的 AI 教育观:AI 管「教」,真人来「育」

- - 极客公园
叮咚课堂 App 上线不过八个月,他们一面竭力在竞争异常激烈的在线少儿英语赛道上保持着刻意的低调,一面又疯狂地收获了平均 300% 月度的用户增长率. 这让他们创始人邱明丰对未来信心更盛了. 在艾瑞咨询发布的《2018 年中国在线幼儿启蒙英语行业白皮书》中提到,近年来人工智能在互联网教育领域大规模展开,但在在线幼儿启蒙英语教育中的应用甚少,随着资本的注入和行业的发展,其有望通过人工智能进一步提升用户在线启蒙英语学习的体验和效率.

英伟达联合阿里华为共同打造智能城市平台

- - TechWeb 新酷网站 RSS阅读
TechWeb 9月25日报道 文/yoyo. 英伟达的AI智能城市平台听起来像是DC的超人漫画的故事,但实际上是一个基于GPU的智能监控工具,可以帮助缓解交通拥堵,分配城市服务,甚至找到失踪人口. 为此,英伟达已经在阿里巴巴和华为找到了两个新的合作伙伴,该公司宣布,在通用的智能城市平台版本中,它将包括Deepstream软件开发工具包.

英伟达称其 H100 数据中心 GPU 性能比上一代高 4.5 倍

- - 奇客Solidot–传递最新科技情报
英伟达发表 新闻稿,宣布其下一代基于 Hopper 架构的数据中心 GPU H100(H 代表 Hopper) 在 MLPerf 行业标准 AI 基准测试中的性能比上一代 A100(基于 Ampere 架构) 高 4.5 倍. 英伟达的新闻稿充斥着热门词,它表示“Hopper 在流行的用于自然语言处理的 BERT 模型上表现出色部分归功于其 Transformer Engine.

英伟达 CUDA 对机器学习的垄断正逐步瓦解

- - 奇客Solidot–传递最新科技情报
过去十年,机器学习软件开发框架经历了巨大变化. 虽然大部分框架严重依赖于英伟达 CUDA,在 英伟达 CUDA 上有最佳性能. 但随着 PyTorch 2.0 和 OpenAI Triton 的到来,英伟达 CUDA 对机器学习的垄断地位正逐渐瓦解. 几年前,Google 的 TensorFlow 框架及专用加速器 TPU 具有先发优势,Google 被认为有望在机器学习行业占据主导地位.

贪吃蛇AI挑战赛第二季

- 温柔一刀 - 黑客志
如果你对这个活动感兴趣,可以先从这里开始,编写一个AI程序,然后将你的AI程序以及你对平台的改进建议发送到jin.cai20#gmail.com,主办方将会从中选择12名选手参加6月24到25持续一个周末的编程派对,并提供往返交通及住宿费用,下面是活动的详情:. 时间: June 24th – June 26th *.