3090可以运行Gemma 3 27B! Google发布了Gemma 3全系列QAT版本

自Google Gemma 3推出以来只有一个月的时间,并且已经发布了新版本。该版本是通过意识到体积(QAT)的训练来优化的,该培训可以显着降低内存需求,同时保持高质量。例如,在QAT进行优化之后,Gemma的VRAM 3 27B的使用可以大大减少到54GB到14.1GB,这使其与消费者GPU(例如NVIDIA RTX 3090)进行了全面操作!聊天机器人竞技场ELO分数:较高的分数(最高数字)表示更多的用户喜好。这些点表示使用BF16数据类型时该模型所需的NVIDIA H100 GPU的估计数量。机器的核心仅在配备了RTX 3070的计算机上尝试了12B版本。可以看出,即使是gemma 3的令牌的输出速度也不够快,通常可以接受 - 普遍。 Gemma 3基于了解AI模型中销量的培训,研究人员可能会使用较少的作品,例如8位(用于存储数据的INT8)甚至4位(INT4)。具有INT4的体积意味着每个值仅以4位表示 - 与BF16格式相比,数据的大小将减少到1/4。但是,这种卷方法通常会导致模型性能降解。那么Google如何保持模型的质量?答案是使用QAT。与仅在完成模型培训后增加的传统方法不同,Qat通过限制训练过程中的低准确性操作直接将体积过程纳入了训练阶段,该模型随后以较小且更快的版本进行测量时,该模型仍然可以保持最小的准确性损失。在特定的实施方面,Google基于检查站的可能性的未经请求的分布作为其目的,在QAT中采取了近5,000个步骤的培训。在Q4_0量化标准音量格式时,混淆下降了54%。它带来的好处之一是VRAM r大大减少等于将模型的重量加载:Gemma 3 27b:从54 GB(BF16)到14.1 GB(INT4)Gemma 3 12b:从24 GB(BF16)到6.6 GB(INT4)GEMMA 3 4B:从8 GB(BF16)到2.6 GB(INT4)。该模型的操作还需要用于KV缓存的其他VRAM,该VRAM存储有关连续通信的信息,并取决于上下文的长度。现在看来,用户可以运行更大的和超越设备的消费者Gemma 3型号,包括:Gemma 3 27B(INT4):现在可以轻松地安装在单个NVIDIA RTX 3090(24GB VRAM)或类似的图形卡上,并且可以在本地运行Gemma 3的最大版本; Gemma 3 12b(INT4):可以在GPU笔记本电脑上运行良好,例如NVIDIA RTX 4060 GPU(8GB VRAM),这使AI具有强大的可移植设备的能力;较小的型号(4B,1B):提供更强大的访问资源有限的系统,包括手机和烤面包机。 INT4和Q4_0非定量QAT模型的官方笑话来自两??个分钟的纸质频道在线上可以拥抱脸和kaggle。 Google还可以使用许多流行的开发人员工具,以允许具有无缝经验丰富的基于QAT的检查点卷的用户:Olllama:从现在开始,Gemma 3 QAT的模型可以由简单命令支持本地支持。 LM Studio:使用方便的界面在桌面上下载和运行Gemma 3 QAT模型很容易。 MLX:使用MLX有效地推荐带有苹果芯片的Gemma 3 QAT模型。 Gemma.cpp:使用专用的C ++实现直接对CPU执行良好的识别。 Llama.cpp:由于对GGUF格式模型QAT的本机支持,它可以很容易地集成到现有的工作流中。激动人心的网民将不再能够控制他们的内在喜悦:“我的4070可以运行Gemma 3 12b。此时,Google终于为即将离开的开发人员做了一些事情。” “我希望Google能够努力努力1位。”您是否使用了可以在本地运行的Gemma 3以及它的效果?一切都是留言在评论区域。参考链接:https://developers.googleblog.com/en/gemma-3-quantized-rrere-lrere-tate-of-the-art-air-ai-to-consumer-fus/?linkid=14034718
请尊重我们的辛苦付出,未经允许,请不要转载PG电子麻将胡了_PG电子娱乐的文章!

下一篇:没有了