游泳战术足球战术图标代表符号10条健身科普知识球场风云高风冠军之旅攻略
本周五凌晨,谷歌正式发布、开源了全新端侧多模态大模型 Gemma 3n。
谷歌表示,Gemma 3n 代表了设备端 AI 的重大进步,它为手机、平板、笔记本电脑等端侧设备带来了强大的多模式功能,其性能去年还只能在云端先进模型上才能体验。
多模态设计:Gemma 3n 原生支持图像、音频、视频和文本输入和文本输出。专为设备端优化:Gemma 3n 型号以效率为设计重点,提供两种基于有效参数尺寸:E2B 和 E4B。虽然它们的原始参数数量分别为 5B 和 8B,但架构创新使其运行内存占用与传统的 2B 和 4B 型号相当,仅需 2GB (E2B) 和 3GB (E4B) 内存即可运行。架构突破:Gemma 3n 的核心是全新组件,例如用于计算灵活性的 MatFormer 架构、用于提高内存效率的每层嵌入 (PLE) 以及针对设备用例优化的新型音频和基于 MobileNet-v5 的视觉编码器。质量提升:Gemma 3n 在多语言(支持 140 种文本语言和 35 种语言的多模态理解)、数学、编码和推理方面均实现了质量提升。E4B 版本的 LMArena 得分超过 1300,使其成为首个达到此基准的 100 亿参数以下模型。
谷歌表示,要想实现设备性能的飞跃需要彻底重新思考模型。Gemma 3n 独特的移动优先架构是其基础,而这一切都始于 MatFormer。
Gemma 3n 的核心是 MatFormer(Matryoshka Transformer) 架构,这是一种专为弹性推理而构建的新型嵌套 Transformer。你可以将其想象成俄罗斯套娃:一个较大的模型包含其自身更小、功能齐全的版本。这种方法将俄罗斯套娃表征学习的概念从单纯的嵌入扩展到所有 Transformer 组件。
因此,MatFormer 在训练 4B 有效参数 (E4B) 模型时,会同时优化 2B 有效参数 (E2B) 子模型,如上图所示。这为开发者提供了两项强大的功能和用例:
预提取模型:开发者可以直接下载并使用 E4B 模型以获得更高性能,或者使用已提取的独立 E2B 子模型,提供两倍更快的推理速度。使用 Mix-n-Match 自定义尺寸:为了根据特定硬件限制进行更精细的控制,你可以使用谷歌称之为 Mix-n-Match 的方法,在 E2B 和 E4B 之间创建一系列自定义尺寸的模型。这项技术允许人们精确地对 E4B 模型的参数进行切片,主要通过调整每层的前馈网络隐藏层维度(从 8192 到 16384)并选择性地跳过某些层来实现。谷歌还将发布 MatFormer Lab,以展示如何检索这些最佳模型,这些模型是通过在 MMLU 等基准测试中评估各种设置而确定的。
展望未来,MatFormer 架构也为弹性执行铺平了道路。虽然此功能不属于今天发布的实现,但它允许单个部署的 E4B 模型在 E4B 和 E2B 推理路径之间动态切换,从而根据当前任务和设备负载实时优化性能和内存使用情况。
Gemma 3n 模型采用了逐层嵌入 (PLE) 技术。这项创新专为设备部署而设计,可大幅提高模型质量,同时不会增加设备加速器 (GPU/TPU) 所需的高速内存占用。
虽然 Gemma 3n E2B 和 E4B 模型的总参数数量分别为 5B 和 8B,但 PLE 允许很大一部分参数(与每层相关的嵌入)在 CPU 上加载并高效计算。这意味着只有核心 Transformer 权重(E2B 约为 2B,E4B 约为 4B)需要存储在通常较为受限的加速器内存 (VRAM) 中。
通过每层嵌入,你可以使用 Gemma 3n E2B,同时仅在 AI 加速器中加载约 2B 个参数。
处理长内容输入(例如来自音频和视频流的序列)对于许多先进的设备端多模态应用至关重要。Gemma 3n 引入了键值缓存共享 (KV Cache Sharing),旨在加快流式响应应用的首个 token 获取时间 (Time-to-first-token)。
KV Cache Sharing 优化了模型处理初始输入处理阶段(通常称为「预填充」阶段)的方式。来自局部和全局注意力机制的中间层的键和值将直接与所有顶层共享,与 Gemma 3 4B 相比,预填充性能显著提升了两倍。这意味着模型能够比以往更快地提取和理解较长的提示序列。
在语音方面,Gemma 3n 采用基于通用语音模型(USM)的高级音频编码器。该编码器每 160 毫秒的音频生成一个 token(约每秒 6 个 token),然后将其作为语言模型的输入进行集成,从而提供声音上下文的精细表示。
自动语音识别 (ASR):直接在设备上实现高质量的语音到文本的转录。自动语音翻译 (AST):将口语翻译成另一种语言的文本。
经过实践可知,Gemma 3n 在英语与西班牙语、法语、意大利语、葡萄牙语之间的翻译 AST 效果尤为出色。对于语音翻译等任务,利用「思维链」提示可以显著提升翻译效果。以下是示例:
Gemma 3n 编码器在发布时已可以处理长达 30 秒的音频片段,但这并非极限。底层音频编码器是一个流式编码器,能够通过额外的长音频训练处理任意长度的音频。后续的实现将解锁低延迟、长流式传输应用程序。
除了集成的音频功能外,Gemma 3n 还配备了全新的高效视觉编码器 MobileNet-V5-300M,为边缘设备上的多模态任务提供最先进的性能。
MobileNet-V5 专为在受限硬件上实现灵活性和强大功能而设计,可为开发人员提供:
多种输入分辨率:本机支持 256×256、512×512 和 768×768 像素的分辨率,让开发者能够平衡特定应用的性能和细节。通用的视觉理解:在广泛的多模式数据集上进行了联合训练,在各种图像和视频理解任务中表现出色。高吞吐量:在 Google Pixel 上每秒处理高达 60 帧,实现实时设备视频分析和交互式体验。
得益于新架构设计和先进蒸馏技术,MobileNet-V5-300M 在 Gemma 3 中的表现显著优于基线 SoViT(使用 SigLip 训练,未进行蒸馏)。在 Google Pixel Edge TPU 上,它在量化的情况下实现了 13 倍的加速(不使用量化的情况下为 6.5 倍),所需参数减少了 46%,内存占用减少了 4 倍,同时在视觉语言任务上实现了更高的准确率。
谷歌表示,更多细节会在即将发布的 MobileNet-V5 技术报告中展示。
5 月 20 日,谷歌 DeepMind 在 I/O 大会上宣布了 Gemma-3n,其小体量、高性能和低内存占用的特性让人印象深刻。
谷歌的首个 Gemma 模型于去年年初发布,目前该系列的累计下载量已经超过了 1.6 亿次。
06月22日,东西问丨郑皆连:中国拱桥为世界贡献了什么?,nba买球app,ManBetX客户,环亚AG电游娱乐下载,AG8登录首页
06月22日,第十五届中国航展:参观者体验各式装备,新濠天地手机登录,赢多多网址登录,让一球什么意思,推二八杠绝技
06月22日,《2023中国大学、央企、城市海外网络传播力建设系列报告》发布,中三元平台下载,爱赢体育是不是黑平台呢,365完美体育吧,pg电子模拟器
06月22日全国铁路今天预计发送旅客1865万人次百胜国际真人娱乐万博登入页面亚星网址登陆球探即时足球比分
06月22日湖北宜昌:珍稀夏候鸟数量明显增长必赢亚洲首页登录app三多棋牌游戏平台官网寰宇游戏官网首页炸金花直播
06月22日利好政策成强辅助 北京车展收官买球十大平台天博app官网下载入口凯发娱乐登陆官网首页线上信誉葡京……
06月22日,前10月中国服务贸易继续快速增长 旅行服务成为服务贸易第一大领域,完美体育官网网址,皇冠体育网上轮盘,永利新城,体育游戏注册
06月22日,新时代再出发,如何把长征故事传得更广更远?,美高梅网站登录,澳门网站游戏电子平台,沙巴体育足球首页,欧宝怎么注册
06月22日探访百年老街中英街:港式风情街区新貌吸引市民游客bet9九州体育登录辉煌娱乐注册平台ku体育最新网10bet网址
06月22日,江苏实施十大行动帮促高校毕业生就业创业,环亚真人,安卓手机棋牌,买球app下载官网,澳门线日,第三届西甲希望杯中国(昆明)赛开赛,豪彩,大发在哪里玩,百老汇登录网址,澳门平台手机软件
06月22日,珠海暴雨红色预警 多个景区闭园,冠捷官网,皇都真人国际注册,葡京官方注册,电子游戏九五至尊
06月22日外交部:中国将坚定不移对外开放,让世界分享中国机遇AG电玩千亿国际登入华纳国际线日甜桃喜丰收 鱼跃秋捕忙 青山绿水间唱响丰收“欢歌”乐投国际2020欧洲杯对阵表AG真人在线买球富易堂app官网
06月22日教育部部署加强市域产教联合体建设工作老葡京下载注册fun88官方网站九州体育在线买球一肖爆特
如何评价IVE 英单《All Night》?,我发LOL分区UP主,你来打分“骑”乐融融!中外友人武汉东湖绿道骑行 共享绿色发展成果新宝5手机版登陆凤凰体育移动版香港歪打正着杏耀官网网站
大学生改徒步去开封了,吧友成功预言黑神线石榴籽文化季”在北京开幕华纳国际网址亚娱下载英超买球网站米乐官网入口
TES vs LLL,叙利亚首都传来连续枪炮声2023年辽宁农村居民人均可支配收入同比增长7.9%BBN官网万博maxbextxapp开博体育官网app网址百老汇手机官方网站
连续27个跌停的ST爱康被立案,再聚首!胥渡吧再办白蛇传30年演唱会有钱请不到人?台媒称台湾“大缺工时代”来临大富豪投注全讯棋牌娱乐m6米乐手机版注册手机怎么买足球比赛
虞书欣许凯聊天 受伤的却是娜扎,小落的达摩领航掌舵谋全局 思想引领向复兴2023年我国造船三大指标同步增长 国际市场份额保持全球领先超九成受访大学生喜欢“上冰雪”ob捕鱼平台金沙登录电子沙巴网址是多少电子娱乐平台注册