GPT-4重磅发布,你需要知道的10件事
本文由全元宇宙Allmetaverse主理人郑秋实出品
2023年3月14日,OpenAI正式发布全新大型多模态模型GPT-4。
OpenAI在以ChatGPT震撼全球的短短几个月之后,火速上线新一代里程碑GPT-4。相较于上一代的ChatGPT和GPT-3.5, GPT-4到底带来了哪些更新,本文将为你快速盘点:
1
ChatGPT已实装GPT4.0
ChatGPT与the new Bing目前已升级为GPT-4版,拥有ChatGPT或 new Bing账号的朋友们已经可以直接通过原账号试用GPT-4的强大功能了。与此同时,GPT-4已开放API接口,就是这么强大又不讲理:)
2
专业学术能力迭代
GPT-4在法律,微积分,化学,物理等学科的考试表现大规模提升,接近于人类top学生的考试表现。以模拟律师考试为例,GPT-4的分数在应试者中可以排到top10%,而上一代的GPT-3.5智能做到倒数10%。律师们大受震撼且开始Emo。
3
文本输入限制抬升
在文字输入方面,GPT-4做到了上一代ChatGPT 8倍的输入限制,来到了2.5万个词/次。按照这个态势推延,不久的将来,人类所有的独立书籍文本都可以一次作为prompt输入gpt,量子读论文现已实现,量子读书指日可待。
4
支持视觉图像输入
GPT-4已开始支持图像输入,此功能目前未向公众开放,官方只是放出了一些对话预览。
GPT-4 可以接受文本和图像提示,这与纯文本设置并行,允许用户指定任何视觉或语言任务。具体来说,它在给定由散布的文本和图像组成的输入的情况下生成文本输出(自然语言、代码等)。在一系列领域——包括带有文本和照片的文档、图表或屏幕截图——GPT-4 展示了与纯文本输入类似的功能。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少量镜头和思维链提示。
5
回答准确性提高
经过6个月的强化学习,GPT-4在处理复杂和细微问题的能力要明显高于GPT3.5,更可靠,回答也更有创意。以主流的几个机器学习模型评估基准横向比对GPT-4与几个其他大模型不难看出,GPT-4在多学科专业问答,尝试推理,代码写作与算数等领域都是目前顶尖的大模型。
6
跨语种能力跃进
为了初步了解其他语言的能力,OpenAI使用 Azure Translate(参见附录)将 MMLU 基准——一套涵盖 57 个主题的 14,000 个多项选择题——翻译成多种语言。在测试的 26 种语言中的 24 种中,GPT-4 优于 GPT-3.5 和其他 LLM(Chinchilla、PaLM)的英语语言性能,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言,可惜的官方公布的信息内未涉及对中文的测试。
7
可定制风格的GPT
OpenAI一直致力于优化ChatGPT的回答水平,包括风格上的可操作性。与具有固定冗长、语气和风格的经典 ChatGPT 个性不同,开发人员(以及很快的 ChatGPT 用户)现在可以通过在“系统”消息中描述这些方向来规定他们的 AI 的风格和任务。系统消息允许 API 用户在一定范围内显着定制他们的用户体验。
8
GPT-4的限制
OpenAI坦诚地阐述了GPT-4目前的局限性,其回答仍然不可能做到100%可靠,有幻觉,出现推理错误仍然是常见的,特别是用户问的问题过于小众,完全不在数据库之内的话。GPT-4的数据库仅更新至2021年9月,之后发生的事件GPT-4并不了解,自然也不能帮你预测明天的股价(感觉这是最热门的问题)。
9
风险更可控的GPT
与 GPT-3.5 相比,GPT-4模型对不允许内容的请求的响应倾向降低了 82%,而对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了 29%。OpenAI聘请了超过50位人工智能安全领域专家来对GPT-4进行对抗性测试,以保障用户使用的安全性,让我们为这份努力点赞,毕竟谁都不希望GPT-4给犯罪份子出谋划策,或对判断能力不足的未成年群体产生负面诱导。
10
可预测扩展
GPT-4 项目的一大重点是构建可预测扩展的深度学习堆栈。主要原因是,对于像 GPT-4 这样的非常大的训练运行,进行广泛的特定于模型的调整是不可行的。OpenAI开发的基础设施和优化在多个尺度上具有非常可预测的行为。为了验证这种可扩展性,OpenAI通过从使用相同方法训练但使用 10,000 倍更少计算的模型进行推断,准确预测了 GPT-4 在OpenAI内部代码库(不是训练集的一部分)上的最终损失。目前而言,这件事的核心价值在于后续降低对大模型进行训练的成本。
结语
GPT-4,知识更渊博,在更多科目的测试中展现一流水平,可能影响更多人类职业方向。
GPT-4,从文生文,拓展到了图文生文,进一步放大了其作为AI工具的使用场景。
GPT-4,三观更贴合人类主流价值观,有效规避