免费可商用开源GPT模型问世,50G权重直接下载,性能不输GPT-3

标签: 资讯 AI芯片 GPT-3 人工智能 开源 | 发表时间:2023-04-02 16:21 | 作者:萧箫
出处:https://www.qbitai.com

萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

真·开源GPT模型,终于来了。

参数量级130亿,大小比肩最近Meta开放的LLaMA-13B,但从数据集、模型权重到计算优化训练, 全部开源

最关键的是, 可商用

没错,虽然就GPT-3而言,之前DeepMind、Meta等组织陆陆续续开源过几个模型,不过基本都是半遮半掩。

尤其最接近GPT-3的Meta OPT模型,不仅权重只开放给研究者,而且不可商用:

这意味着之前企业就算能抄作业,抄来的也没办法直接用。

现在,一家名叫Cerebras的公司开源了这一系列GPT模型,业界终于有机会追赶了。

模型性能如何?

Cerebras一共开源了7个GPT模型,参数量分别达到1.11亿、2.56亿、5.9亿、13亿、27亿、67亿和130亿。

据Cerebras公司表示,他们开放出来的模型不仅包含数据集,可用于研究也可商用,而且关键是预训练模型权重开放(从下图来看文件大小近50G)。

基于他们公开的预训练模型,大伙儿只需要用少量的数据对对模型进行微调,就能构建出效果不错的模型来。

除此之外,这次GPT模型的训练还额外考虑到了 计算优化训练 (Compute-Optimal Training)。

这个方法最早由DeepMind在2022年提出,名叫Chinchilla,它认为大语言模型的语料数量和模型效果之间符合一个凸曲线,因此模型参数量和训练程度成一定比例。

依据这个方法,DeepMind认为,包括GPT-3在内的超大参数LLM模型,有很多都是 训练不足的。

基于此,Cerebras搞出了这一系列GPT模型,并将背后的流程进行了开源。

所以,Cerebras-GPT系列模型性能如何呢?

团队将Cerebras-GPT系列和LLaMA、GPT-3等模型的性能进行了对比。

这是包括GPT-3、Gopher、Chinchilla和LLaMA在内的其他GPT模型,在完成句子、问答等特定任务上表现的效果。

这是不同大小的Cerebras-GPT模型零次学习(0-shot)的效果:

数据对比不是特别直观,团队还将结果进行了可视化。

可以看出,在最终性能相差不大的情况下,Cerebras-GPT的 训练效率要更高一些。

曾开发最大AI芯片

其实,Cerebras的“本职”是一家AI芯片公司。

Cerebras公司由Sean Lie和Andrew Feldman等人于2016年创立。

其中,Andrew Feldman曾创建微型服务器公司SeaMicro,并以3.34亿美元的价格出售给AMD。

与其他AI芯片公司不同,Cerebras开发的芯片超大,像晶圆一样(但确实是芯片):

他们当年做出来过一个名叫“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE)的AI芯片,将逻辑运算、通讯和存储器集成到单个硅片上,一口气创下了 4项世界纪录

  • 晶体管数量最多的运算芯片:总共包含1.2万亿个晶体管。虽然三星曾造出2万亿个晶体管的芯片,却是用于存储的eUFS。
  • 芯片面积最大:尺寸约20厘米×23厘米,总面积46,225平方毫米。面积和一块晶圆差不多。
  • 片上缓存最大:包含18GB的片上SRAM存储器。
  • 运算核心最多:包含40万个处理核心。

后来这个超大WSE又升级了二代,然后团队基于WSE-2打造出了一个名叫Cerebras CS-2的AI超算。

这次的Cerebras-GPT系列模型,就是在这个Cerebras CS-2的AI超算中训练出来的。对此这家公司表示:

虽然训练这么大体量的模型通常需要几个月时间,但我们几周就能搞定。

Cerebras还表示,虽然很多硬件公司都声称训练效果能接近 英伟达GPU的水平,但他们还没看到任何一家亲自推动开源LLM的硬件公司,这势必不利于开源LLM的发展。

这波啊,这波Cerebras格局大了(手动狗头)

模型地址:
https://huggingface.co/cerebras/Cerebras-GPT-13B

参考链接:
https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/

相关 [免费 开源 gpt] 推荐:

免费可商用开源GPT模型问世,50G权重直接下载,性能不输GPT-3

- - 量子位
量子位 | 公众号 QbitAI. 真·开源GPT模型,终于来了. 参数量级130亿,大小比肩最近Meta开放的LLaMA-13B,但从数据集、模型权重到计算优化训练, 全部开源. 没错,虽然就GPT-3而言,之前DeepMind、Meta等组织陆陆续续开源过几个模型,不过基本都是半遮半掩. 尤其最接近GPT-3的Meta OPT模型,不仅权重只开放给研究者,而且不可商用:.

开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4

- - 机器之心
ChatGPT 拉开了大模型竞赛的序幕,Meta 似乎要后来居上了. 本周四,AI 领域迎来重大消息,Meta 正式发布了人们等待已久的开源大模型 Llama 3. 扎克伯格在 Facebook 上发帖:Big AI news today.. 与此同时,扎克伯格宣布:基于最新的 Llama 3 模型,Meta 的 AI 助手现在已经覆盖 Instagram、WhatsApp、Facebook 等全系应用,并单独开启了网站.

GPT-2 Tokenizer 效率观察

- - Solrex Shuffling
对基于 Transformer 结构的 LLM (大语言模型)来说,模型的输入输出都是 Token(词元). 一段输入文本,首先要经过 Tokenizer(分词器)切分成 Token 再输入给模型. 不同的 Tokenizer 会把文本按不同的边界切分,那一段文本到底会被切成几个 Token 就体现了 Tokenizer 本身的效率,这本身也是信息论的讨论范畴.

10大免费开源Windows软件

- - 行业应用 - ITeye博客
  尽管微软和开源社区存在着竞争,但仍然有很多开源软件是适用于Windows系统的. 著名的《Infoworld》杂志网站近日就罗列出10款最为著名的适用于Windows系统的开源软件.   FileZilla 是一款开源的FTP客户端软件. 与其他FTP软件一样,FileZilla也有一个富有条理的用户界面,并且可以自动批量上传.

[译] GPT 是如何工作的:200 行 Python 代码实现一个极简 GPT(2023)

- - ArthurChiao's Blog
本文整理和翻译自 2023 年 Andrej Karpathy 的 twitter 和一篇文章: GPT as a finite-state markov chain. Andrej Karpathy 博士 2015 毕业于斯坦福,之后先在 OpenAI 待了两年,是 OpenAI 的创始成员和研究科学家,2017 年加入 Tesla,带领 Tesla Autopilot 团队, 2022 年离职后在 Youtube 上科普人工智能相关技术,2023 年重新回归 OpenAI.

GPT-4重磅发布,你需要知道的10件事

- - 广告网 - 行业观察
本文由全元宇宙Allmetaverse主理人郑秋实出品. 2023年3月14日,OpenAI正式发布全新大型多模态模型GPT-4. OpenAI在以ChatGPT震撼全球的短短几个月之后,火速上线新一代里程碑GPT-4. 相较于上一代的ChatGPT和GPT-3.5, GPT-4到底带来了哪些更新,本文将为你快速盘点:.

更开放的微软拥抱开源:微软.NET开源专利免费用

- - WPDang
在微软CEO萨提亚·纳德拉上台之后,其推行的“移动为先,云为先”战略似乎也让微软对待产品服务的态度变得更加开放了. 早前发布的Office For iPad、近日发布的Office For iPhone、Office For Android Tablet都是一个个活生生的例子. 不过这样的开放性态度同样也被扩展到开发者和开发产品中.

OpenAI 发布 GPT-4,有哪些技术上的优化或突破?

- - 知乎每日精选
在这个历史性的时刻,回答个问题,留下自己作为历史见证人的足迹. GPT4的技术报告里很明确地指出了三个新的方向:. 第一,LLM最前沿研究的封闭化或小圈子化. 技术报告里说了,出于竞争以及安全等方面的考虑,未公布模型规模等技术细节. 从GPT 2.0的开源,到GPT 3.0的只有论文,再到ChatGPT连论文也没有,直到GPT 4.0的技术报告更像效果评测报告.

开发人员看过来:11 个免费的开源 IDE

- 阿贡 - ITeye资讯频道
今天给大家分享几款开源IDE,太常见的IDE这里就不介绍了. Komodo Edit 是开源的,支持PHP, Python, Ruby, JavaScript, Perl, Tcl, XML, HTML 5 and CSS 3. 它具备语法着色,折叠,背景语法检查,自动完成和提示功能,还包括jQuery,Ext JS,Ruby on Rails等库,可自动完成.

五个免费开源的数据挖掘软件

- ※ABeen※ - 车东[Blog^2]
在网上看到一篇文章介绍五个免费开源的数据挖掘软件,转过来. Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了Python以进行脚本开发. 它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能.