想掏一台 Mac mini M4 Pro 64G 跑 gemma4 31b Q4 接 openclaw 处理日常的问题，有人测试过速度吗？

31 条回复 • 2026-04-16 07:37:20 +08:00

1

MacsedProtoss

3 天前 via iPhone

这个玩意估计不太行 openclaw 还是跑蛮多代码相关的。这个模型感觉还是传统对话为主

2

qweruiop

3 天前

受限于上下文，太慢了，回复质量太差了。。。

3

Jh1n

3 天前

64G 我试过，龙虾请求频次太高了顶不住的，还有龙虾过时了建议用 Hermes

4

huanxianghao

3 天前

感觉智商不够，等 gemma5

5

Ken1028

OP

3 天前

@MacsedProtoss 纯 LM Studio 跑速度如何？

6

zyxk

3 天前

我使用 lm studio ，加载不了 gemma4 mlx 系列，提示是不支持，gguf 系列可以正常用，想问一下 mlx 系列怎么正常使用。

7

penisulaS

3 天前

3

小模型像是弱智员工,啥工作都不派给他就是最省心的

8

liu731

PRO

3 天前

参数太小了，玩玩可以。生产还是 opus 吧～

9

Ken1028

OP

3 天前

@zyxk mlx 我在 MBP 也是加载失败，gguf 可以

10

wangtufly

3 天前 via Android

试过了，不得行。Mac mini m4pro 64G 基本上不能用的状态。

11

Dream4U

3 天前

本来 AI 最大的问题就是不确定性，你再配这么个本地模型，纯折腾。

12

nc

3 天前

搞个 nsfw 版提供情绪价值倒是挺好

13

kirbyzhu

3 天前 via iPhone

小模型不行

14

EchoWhale

3 天前

64G macmini m4 pro, gemma4 31B Q6K
很慢, 非常慢, 10token/s. 而且智商也一般
有个钱买套餐都够好多年了

15

EchoWhale

3 天前

16

nabanbaba

3 天前

工作，正常用途，还是调公有云接口吧
像楼上说的数据本地化，nsfw 折腾才考虑本地部署，基本上也就是折腾着玩，打发时间。
m3ultra 在 openclaw 这种十万级别的上下文推理效果估计都一般。

17

Ken1028

OP

3 天前

@EchoWhale Q4 能用吗😂

18

EchoWhale

3 天前

@Ken1028 速度快一点, 智商再低一点. 有啥用

19

MacsedProtoss

3 天前 via iPhone

@Ken1028 我在 5090 跑的话主要是上下文开不到非常高，几万吧，到不了 256K ，速度受限在 preprocessing ，吐 token 有几十。如果是 Mac 的话考虑到 preprocessing 估计 64G 的上下文长度和 5090 差不多的情况下速度慢很多

20

nexo

3 天前

你用这个给龙虾不是找罪受找气受嘛

21

Link99

3 天前

除非你是有数据安全的需求绝对不能联网
否则性价比还是比较低的

22

salor

3 天前

本地小模型仅用于文生图/AI 女友搞涩涩娱乐，再怎么折腾小学生也干不了大学生的活。

23

timeyoyo

3 天前

我用 MBP M4 MAX 36G ？尝试部署了一个千问小模型，温度达到了铁板烧，然后还是乖乖充值了

24

jieee

3 天前

我测试的 m4 max 配置满上下文内存占用 70G+，20t/s

25

AmericanExpress

3 天前 via iPhone

M4 max 64gb mem mac studio 跑 gemma4 31b 搭配 opencode 在 mem 够的时候还行，除了第一个回复要等一会
问题是 mem 一下就不够了，随便跑个 skill mem 占用直接跑到 70gb
local llm 还是只能跑跑简单的问答

26

ggBalloon

3 天前

让 Gemini 和 gpt 分别出各种问题测试大模型 qwen3.5-35b-a3b 和 9b 以及 gemma4-26b-a4b ，结果都说 qwen3.5-35b-a3b 表现最稳定，直接淘汰 gemma4-26b-a4b

27

TheOutgoing

3 天前

实测，M5 Max Qwen3.5-122b-a10b, gemma4-31b 都是 4bit ，tg 分别为 75 和 28 ，都是非常可用的状态。跑 claude code 不建议，会有 2-3 个并发很影响带宽

28

ligogid

3 天前 via iPhone

@EchoWhale 古诗题别说小模型，就是正常模型不调用搜索都是胡说

29

EchoWhale

2 天前

@ligogid zai-org/glm-4.7-flash 这个模型不错, 43 tokens/s
当然这种问答白嫖 grok/gemini 就行了, 更快更好

30

mapleshadowxda

1 天前 via Android

淘宝上有 AI 工作站，One XPlayerOneXStation ，这玩意可以，就是价格的再花点钱

31

coefu

16 小时 18 分钟前

agent 这条路，本身就是跑不通的。理论决定了。

每次 agent 的成功率到不了 100%，N 步之后，就会降到低于 1%，完全失败。云端无非就是用巨量资源让这个 N 长到能覆盖每个人的任务。端侧的这个 N 因为资源的限制，比云端 api 要低几个数量级。

云端 api 的体验，在 local 本地，基本上就无法体验到，理论决定了。