Meta开源的ChatGPT平替到底好不好用?测试结果、加料改装方法已出炉,2天5.2k星

标签: meta 开源 chatgpt | 发表时间:2023-03-05 13:17 | 作者:机器之心
出处:https://www.jiqizhixin.com/
ChatGPT 的持续爆火,早已让各大科技公司坐不住了。

就在刚刚过去的一周,Meta「开源」了一个新的大模型系列 ——LLaMA(Large Language Model Meta AI),参数量从 70 亿到 650 亿不等。因为 LLaMA 比之前发布的很多大模型参数更少,但性能更好,所以一经发布让很多研究者兴奋不已。

例如,130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3,而且可以在单块 V100 GPU 上运行;而最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。

参数量的减少对于普通研究者和商业机构来说都是好事,但 LLaMA 真的像论文中说得那样表现那么好吗?和当前的 ChatGPT 相比,LLaMA 是否可以勉强一战?为了解答这些疑问,有些研究者已经对这一模型进行了测试。

还有公司已经在尝试补齐 LLaMA 短板,想看能不能通过添加 RLHF 等训练方法让 LLaMA 表现更好。

LLaMA 初步评测

这份评测结果来自一位名叫 @Enryu 的 Medium 作者。它比较了 LLaMA 和 ChatGPT 在解释笑话、零样本分类和代码生成三个颇具挑战性的任务中的效果。相关博客文章为《Mini-post: first look at LLaMA》。

作者在 RTX 3090/RTX 4090 上运行 LLaMA 7B/13B 版本,在单个 A100 上运行 33B 版本。

需要注意的是,与 ChatGPT 不同,其他模型并不是基于指令微调,因此 prompt 的结构有所不同。

解释笑话

这是谷歌原始 PaLM 论文中展示的一个用例:给出一个笑话,让模型来解释它为什么好笑。该任务需要将世界知识和一些基本逻辑相结合。PaLM 之前的所有模型都无法做到这一点。作者从 PaLM 论文中提取了一些示例,比较了 LLaMA-7B、LLaMA-13B、LLaMA-33B 与 ChatGPT 的表现。

图片

可以看到,结果很糟糕。这些模型 get 到了一些笑点,但无法真正理解,它们只是随机生成一些相关的文本流。ChatGPT 虽与 LLaMA-33B 一样表现很差(其他几个模型更差),但它遵循了不一样的策略:生成了一大堆文本,希望自己的回答至少有一部分是正确的(但大部分显然不是),是不是很像大家考试时应对问答题的策略?

不过,ChatGPT 起码 get 到了关于 Schmidthuber 的笑话。但总的来说,这些模型在零样本笑话解释任务上的效果与 PaLM 相差甚远(除非 PaLM 的示例是精心挑选)。

零样本分类

作者考虑的第二项任务更具挑战性 —— 标题党(clickbait)分类。由于连人类也无法就什么是标题党达成一致,作者在 prompt 中为这些模型提供了一些示例(因此实际上是小样本而非零样本)。如下为 LLaMa 的 prompt:

下图为 LLaMA-7B、LLaMA-13B、LLaMA-33B 与 ChatGPT 的更多示例结果。
图片
很明显,赢家为 LLaMA-33B,它是唯一一个能够遵循所有请求格式(yes/no)的模型,并且预测合理。ChatGPT 也还可以,但有些预测不太合理,格式也有错误。较小的模型(7B/13B)不适用于该任务。

代码生成

虽然 LLM 擅长人文学科,但在 STEM 学科上表现糟糕。LLaMA 虽然有基准测试结果,但作者在代码生成领域尝试了一些特别的东西,即将人类语言零样本地转换为 SQL 查询。这并不是很实用,在现实生活中直接编写查询会更有效率。这里只作为代码生成任务的一个示例。

在 prompt 中,作者提供表模式(table schema)以及想要实现的目标,要求模型给出 SQL 查询
从测试结果来看,LLaMA 在一些任务上表现还不错,但在另一些任务上和 ChatGPT 还有一些差距。如果能像 ChatGPT 一样加入一些「训练秘籍」,效果会不会大幅提升?

加入 RLHF,初创公司 Nebuly AI 开源 ChatLLaMA 训练方法

虽然 LLaMA 发布之初就得到众多研究者的青睐,但是少了 RLHF 的加持,从上述评测结果来看,还是差点意思。

在 LLaMA 发布三天后,初创公司 Nebuly AI 开源了 RLHF 版 LLaMA(ChatLLaMA)的训练方法。它的训练过程类似 ChatGPT,该项目允许基于预训练的 LLaMA 模型构建 ChatGPT 形式的服务。项目上线刚刚 2 天,狂揽 5.2K 星。
图片
项目地址:https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama

ChatLLaMA 训练过程算法实现主打比 ChatGPT 训练更快、更便宜,我们可以从以下四点得到验证:

  • ChatLLaMA 是一个完整的开源实现,允许用户基于预训练的 LLaMA 模型构建 ChatGPT 风格的服务;
  • 与 ChatGPT 相比,LLaMA 架构更小,但训练过程和单 GPU 推理速度更快,成本更低;
  • ChatLLaMA 内置了对 DeepSpeed ZERO 的支持,以加速微调过程;
  • 该库还支持所有的 LLaMA 模型架构(7B、13B、33B、65B),因此用户可以根据训练时间和推理性能偏好对模型进行微调。

图片
图源:https://openai.com/blog/chatgpt

更是有研究者表示,ChatLLaMA 比 ChatGPT 训练速度最高快 15 倍。

图片

不过有人对这一说法提出质疑,认为该项目没有给出准确的衡量标准。

图片
项目刚刚上线 2 天,还处于早期阶段,用户可以通过以下添加项进一步扩展:

  • 带有微调权重的 Checkpoint;
  • 用于快速推理的优化技术;
  • 支持将模型打包到有效的部署框架中。

Nebuly AI 希望更多人加入进来,创造更高效和开放的 ChatGPT 类助手。

该如何使用呢?首先是使用 pip 安装软件包:

然后是克隆 LLaMA 模型: 

一切准备就绪后,就可以运行了,项目中介绍了 ChatLLaMA 7B 的训练示例,感兴趣的小伙伴可以查看原项目。

参考链接:
https://www.linkedin.com/posts/activity-7035964259431763970-YdMK/
https://medium.com/@enryu9000/mini-post-first-look-at-llama-4403517d41a1


相关 [meta 开源 chatgpt] 推荐:

Meta开源的ChatGPT平替到底好不好用?测试结果、加料改装方法已出炉,2天5.2k星

- - 机器之心
ChatGPT 的持续爆火,早已让各大科技公司坐不住了. 就在刚刚过去的一周,Meta「开源」了一个新的大模型系列 ——LLaMA(Large Language Model Meta AI),参数量从 70 亿到 650 亿不等. 因为 LLaMA 比之前发布的很多大模型参数更少,但性能更好,所以一经发布让很多研究者兴奋不已.

Meta开源JavaScript内存泄漏监测工具MemLab

- - 掘金 前端
上周,Facebook母公司Meta 宣布了开源 MemLab,一个基于 Chromium 的浏览器的 JavaScript 应用程序内存泄漏监测工具. 同时,Facebook 技术团队指出:“应用程序的性能和功能正确性问题通常会被用户立即留意到. 然而内存泄漏却不一样,它不容易被立即察觉,但它每次都会吃掉一大块内存,使得整个网络会话的响应变得非常慢.

够快!爆火的ChatGPT等价开源项目来了,网友:我担心跑不起来

- - 机器之心
最近一段时间,由 OpenAI 开发的 AI 聊天机器人程序 ChatGPT 横扫各大 AI 社区,大家对它的热情只增不减,不断挖掘其潜力. 有些研究者坐不住了,开始琢磨怎样才能开发个等同于 ChatGPT 的开源软件. 还没有行动的小伙伴这次参考示例来了,下面我们将要介绍的这个项目(PaLM + RLHF)就实现了这样的功能.

Meta 透露元宇宙 AI 项目

- - 奇客Solidot–传递最新科技情报
Facebook 母公司Meta 首席执行官扎克伯格周三 表示,公司正在进行人工智能(AI)研究,以通过语音生成世界,改进人们与语音助手的聊天方式,并在不同语言之间进行翻译. 他勾勒出了建立元宇宙的关键步骤. 扎克伯格押注元宇宙将接替移动互联网. 元宇宙是一个未来主义的想法,即用户可以在其中工作、社交和游戏的虚拟环境.

ChatGPT的几个声明

- -
ChatGPT是一个免费的研究预览. 我们的目标是获取外部反馈,以改进我们的系统并使其更加安全. 虽然我们已经设置了保障措施,但系统偶尔可能会生成不正确或误导性的信息,并产生冒犯或有偏见的内容. 我们的AI培训师可能会审核对话以改善我们的系统. 请不要在您的对话中分享任何敏感信息. 整个欧洲都有兴趣“封禁”ChatGPT.

Meta Watch通过FCC认证 售价199美金

- 乌鸦 - cnBeta.COM
感谢@Android安卓星空 .的投递. Android迷翘首以盼的Fossil Meta Watch是一拖再拖,今天外媒终于传来了好消息,这款手表已经通过了FCC的认证,接下来它就可以同步到您的Android智能手机或平板电脑了. 手表有两个版本,一个为指针式,有标准的旋钮以及两个小型OLED显示屏;另一个版本为数字式.

Meta 宣布文本视频生成器 Make-A-Video

- - 奇客Solidot–传递最新科技情报
在文本图像生成器流行之后,Meta 宣布了文本视频生成器 Make-A-Video,可通过文本或图像提示生成视频内容. Meta 演示了利用一段文字描述或一幅静态图像生成视频的效果,比如一幅海龟图像在处理之后变成了海龟游泳视频. Make-A-Video 是基于现有的文本图像生成模型,如 OpenAI 的 DALL-E.

Instagram 和 Meta 会降低低观看量视频的质量

- - 奇客Solidot–传递最新科技情报
为什么 Instagram 上的部分视频模糊,部分视频明显更清晰. 这是因为视频的质量取决于观看次数,Meta 此举可以节省大量流量费用. 负责 Instagram 业务的 Meta 高管 Adam Mosseri 解释说,Instagram 通常会尽可能展示高质量(或者高码率)视频,但如果某个视频长期无人观看——因为大部分视频的浏览量来自于刚上线的时候——它会将其替换为低质量(或低码率)视频.

使用 viewport meta 标签在手机浏览器上控制布局

- - 我爱水煮鱼
手机浏览器是把页面放在一个虚拟的“窗口”(viewport)中,通常这个虚拟的“窗口”(viewport)比屏幕宽,这样就不用把每个网页挤到很小的窗口中(这样会破坏没有针对手机浏览器优化的网页的布局),用户可以通过平移和缩放来看网页的不同部分. 移动版的 Safari 浏览器最新引进了 viewport 这个 meta tag,让网页开发者来控制 viewport 的大小和缩放,其他手机浏览器也基本支持.

最强语言 AI 诞生 - ChatGPT

- - 煞有介事
没错,最强语言 AI 已经诞生,那就是 ChatGPT. ChatGPT 是 OpenAI 实验室最近推出的语言 AI,上周三推出,今天已经有 100万用户量,甚至马斯克都已经注意到了. 这两天也是各个圈子在一直分享和「玩」,有技术圈、web3 圈. 我也注册试玩了下,从 SEO 角度,内容质量和流畅度确实远超其他 AI 几条街.