Google DeepMind 发布多模态轻量级开源模型 Gemma 3:性能与功能全面升级

标签: LLm 多模态 大模型 预训练模型 DeepMind | 发表时间:2025-03-12 20:07 | 作者:52nlp
出处:https://www.52nlp.cn

近日,Google DeepMind 团队推出了 Gemma 3,一款多模态轻量级开源模型,它在 Gemma 系列中引入了视觉理解、更广泛的语言覆盖和更长的上下文处理能力。本文将深入剖析 Gemma 3 的技术报告,探讨其创新之处以及对人工智能领域的潜在影响。

一、Gemma 3 的核心特性

(一)多模态能力

Gemma 3 不仅能够处理文本数据,还具备视觉理解能力。它通过定制版的 SigLIP 视觉编码器,将图像转化为模型可处理的软标记序列。为了减少图像处理的推理成本,模型将视觉嵌入压缩为固定大小的 256 个向量。此外,Gemma 3 采用了一种名为“Pan and Scan”(P&S)的技术,能够灵活处理不同分辨率和宽高比的图像,从而提升模型在视觉任务上的表现。

(二)长上下文处理

Gemma 3 的上下文长度显著提升,大多数模型版本支持至少 128K tokens 的上下文处理,而 1B 模型则支持 32K tokens。为了应对长上下文带来的内存爆炸问题,模型架构进行了优化,增加了局部注意力层与全局注意力层的比例,并缩短局部注意力层的跨度。具体而言,每 5 个局部层后跟 1 个全局层,全局层负责处理长距离依赖关系,而局部层则专注于较短范围内的信息交互。

(三)多语言支持

Gemma 3 在多语言能力方面也取得了显著进展。通过调整训练数据的混合比例和引入更多的多语言数据,模型能够更好地理解和生成多种语言的文本。这使得 Gemma 3 在跨语言任务中表现出色,进一步拓展了其应用场景。

二、模型架构与训练方法

(一)架构设计

Gemma 3 基于decoder-only 的 Transformer 架构,与前两代 Gemma 模型类似。但在细节上有所创新,例如采用 Grouped-Query Attention(GQA)和 RMSNorm 规范化方法。此外,模型还引入了 QK-norm 替代 Gemma 2 中的软封顶机制,以提升性能和稳定性。

(二)训练策略

Gemma 3 的训练过程包括预训练和指令微调两个阶段。在预训练阶段,模型使用知识蒸馏技术,从大规模数据中学习语言和视觉表示。训练数据涵盖了文本、图像以及多语言等多种类型,且经过严格的筛选和清洗,以减少有害内容和低质量数据的影响。在指令微调阶段,Gemma 3 采用了新颖的训练方法,重点关注数学、聊天、指令遵循和多语言等能力的提升。

三、性能评估与应用前景

(一)性能表现

Gemma 3 在多个基准测试中展现了卓越的性能。例如,在 LMSYS Chatbot Arena 的盲评中,Gemma-3-27B-IT 模型得分达到 1338,跻身前十名。在标准基准测试中,Gemma 3 在多语言理解、代码生成、数学推理等多个任务上均取得了优异成绩,部分指标甚至超越了更大规模的模型。

(二)应用潜力

凭借其多模态、长上下文和多语言等能力,Gemma 3 可广泛应用于智能助手、内容创作、教育、医疗等领域。例如,在智能助手方面,Gemma 3 能够理解用户的自然语言指令和图像输入,提供更加智能和个性化的服务。在教育领域,它可辅助教学内容生成、作业批改等工作。

四、安全与责任

Gemma 3 的开发团队高度重视模型的安全性和责任问题。在训练过程中,实施了严格的安全策略,对数据进行筛选和过滤,以减少有害内容的生成风险。此外,还对模型进行了碳足迹评估,并采取了相应的碳中和措施,以降低环境影响。

总之,Gemma 3 作为一款多模态轻量级开源模型,在性能和功能上实现了全面升级。它的发布为人工智能领域带来了新的机遇和挑战,有望在众多实际应用中发挥重要作用。

以下是Gemma 3技术报告英中对照版:

相关 [google deepmind 模态] 推荐:

Google DeepMind 发布多模态轻量级开源模型 Gemma 3:性能与功能全面升级

- - 我爱自然语言处理
近日,Google DeepMind 团队推出了 Gemma 3,一款多模态轻量级开源模型,它在 Gemma 系列中引入了视觉理解、更广泛的语言覆盖和更长的上下文处理能力. 本文将深入剖析 Gemma 3 的技术报告,探讨其创新之处以及对人工智能领域的潜在影响. 一、Gemma 3 的核心特性. Gemma 3 不仅能够处理文本数据,还具备视觉理解能力.

谷奥: Google = Google+

- 吞佛 - 谷奥聚合——谷奥主站+谷安 aggregator
在上周举办的Google Zeitgeist 2011大会上,John Battelle问Larry Page:在Google大部分的历史里,人们会想到搜索,那么Google品牌=搜索. 但在随后Google的发展史里,Google品牌会等于什么. Larry Page并未直面回答这个问题,至少没有从市场角度来回答.

Google宣布Google CDN

- way - Solidot
Google宣布了最新的帮助加快互联网速度的工具Page Speed Service,加快静态网页的载入速度,不支持动态网页. 在开发者注册该服务之后,可将网站的DNS入口记录指向Google,然后Page Speed Service从服务器上抓取内容,采用最佳的Web性能方案重写网页,通过Google在全球部署的服务器将内容展示给终端用户,加快网页载入速度.

Google将关闭Google Labs

- yifan - Solidot
Google宣布将关闭Google实验室,搜索巨人表示此举将帮助他们将精力集中在优先的产品项目上. Google称,关闭Google实验室意味着大部分试验项目将会被放弃,但不是每一个项目都会被抛弃. Google会将部分试验项目整合到其它产品中. Android应用程序如Google Goggles和Google Listen,则将会继续留在Android Market中.

當Google Docs遇上Google Finances

- 沒有暱稱 - 海芋小站
Google Finances是由Google所推出的一個財經服務,裡面記錄了全球的財經資訊,而如果我們要在Google文件中插入這些財經資訊,如某支股票的收盤價,開盤價等資訊,那要怎麼辦到呢. Google其實提供了非常簡單的函式,怎麼用就往下看啦. 其實在Google文件的試算表中,以插入股票為例,只要輸入「=GoogleFinance("股票代碼.tw"; "參數")」就可以了,以鴻海為例,代碼就是「2317」,記得一定要加變成「2317.tw」才可以.

Google Reader将和Google+整合

- Richard - 月光博客
  Google Reader官方博客宣布,即将对Google Reader进行重大改版,并和Google+进行整合,新版本将重新设计,包括friending、following等功能将会被删除. 之前Google Reader的社交功能是和Buzz整合,随着Buzz的关闭,Google Reader的改版有可能会和以前的Buzz一样,将关注和被关注整合到Google+中,然后用户在Google Reader的分享自动同步到Google+.

谈谈 Google+

- Michael - 云风的 BLOG
Shared by 令狐虫. Google+ 这这些点上给出了技术上的方案,却没有给使用者明确的使用引导. 对于 Geek 来说,这些功能是有趣的. 但是,它极端依赖人的正确使用,你还无法管得了别人的错误使用,在良好的信息过滤这一点上,作为信息接收方来说,几乎没有好的方法. Google 正式发布 Google+ 的时候,我在山上.

Google+ 调查

- mornlee - 爱范儿 · Beats of Bits
Ren Media 的 Thomas Morffew 在 Google+ 上进行了一次调查,在 24 小时内收到 590 份回复,虽然调查的样本还不够多,但其结果与想象的差别不大. 从下面这几副图里,可以了解一下 Google+ 的一些相关数据. 使用桌面浏览器的人比例是 89%. 这并不奇怪,目前 Google+ 的体验上,桌面浏览器在功能和操作上都超过移动版和应用客户端,应用客户端很出色,但一大缺憾是无法转发信息,当然也无法进行视频聊天.

Google Plus新政

- iVane - 槽边往事
本周早些时候,我的Google Plus帐号被停权了. 页面提示上写着:Your account was suspended.理由是我违反了Google Plus的《社区准则》(相关链接),却又没有明确指出我违反了哪一条. 于是,我只好向提交了申诉表单(相关链接). 这一次,Google Plus明确指出,问题出在我的ID“和菜头”,这一ID的命名法违背了《社区准则》的第八条:.

谈谈 Google+

- Sopp - 云风的 BLOG
Google 正式发布 Google+ 的时候,我在山上. 回到文明社会后,还好赶上了第一批用户的末班车,试用了一下. 现在,重新开放,有更多的人尝试用 Google+. 在数天之内,我就圈了接近 100 个朋友,被圈了近 1000 次. 对于类似产品,我觉得算相当不错的成绩了. 要知道,我 twitter 上只 fo 了不到 30 个人,douban 好友不到 50 个.