V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Ken1028
V2EX  ›  Local LLM

想掏一台 Mac mini M4 Pro 64G 跑 gemma4 31b Q4 接 openclaw 处理日常的问题,有人测试过速度吗?

  •  
  •   Ken1028 · 3 天前 · 2981 次点击
    31 条回复    2026-04-16 07:37:20 +08:00
    MacsedProtoss
        1
    MacsedProtoss  
       3 天前 via iPhone
    这个玩意估计不太行 openclaw 还是跑蛮多代码相关的。这个模型感觉还是传统对话为主
    qweruiop
        2
    qweruiop  
       3 天前
    受限于上下文,太慢了,回复质量太差了。。。
    Jh1n
        3
    Jh1n  
       3 天前
    64G 我试过,龙虾请求频次太高了顶不住的,还有龙虾过时了建议用 Hermes
    huanxianghao
        4
    huanxianghao  
       3 天前
    感觉智商不够,等 gemma5
    Ken1028
        5
    Ken1028  
    OP
       3 天前
    @MacsedProtoss 纯 LM Studio 跑速度如何?
    zyxk
        6
    zyxk  
       3 天前
    我使用 lm studio , 加载不了 gemma4 mlx 系列,提示是不支持,gguf 系列可以正常用, 想问一下 mlx 系列怎么正常使用。
    penisulaS
        7
    penisulaS  
       3 天前   ❤️ 3
    小模型像是弱智员工,啥工作都不派给他就是最省心的
    liu731
        8
    liu731  
    PRO
       3 天前
    参数太小了,玩玩可以。生产还是 opus 吧~
    Ken1028
        9
    Ken1028  
    OP
       3 天前
    @zyxk mlx 我在 MBP 也是加载失败,gguf 可以
    wangtufly
        10
    wangtufly  
       3 天前 via Android
    试过了,不得行。Mac mini m4pro 64G 基本上不能用的状态。
    Dream4U
        11
    Dream4U  
       3 天前
    本来 AI 最大的问题就是不确定性,你再配这么个本地模型,纯折腾。
    nc
        12
    nc  
       3 天前
    搞个 nsfw 版提供情绪价值倒是挺好
    kirbyzhu
        13
    kirbyzhu  
       3 天前 via iPhone
    小模型不行
    EchoWhale
        14
    EchoWhale  
       3 天前
    64G macmini m4 pro, gemma4 31B Q6K
    很慢, 非常慢, 10token/s. 而且智商也一般
    有个钱买套餐都够好多年了
    EchoWhale
        15
    EchoWhale  
       3 天前
    nabanbaba
        16
    nabanbaba  
       3 天前
    工作,正常用途,还是调公有云接口吧
    像楼上说的数据本地化,nsfw 折腾才考虑本地部署,基本上也就是折腾着玩,打发时间。
    m3ultra 在 openclaw 这种十万级别的上下文推理效果估计都一般。
    Ken1028
        17
    Ken1028  
    OP
       3 天前
    @EchoWhale Q4 能用吗😂
    EchoWhale
        18
    EchoWhale  
       3 天前
    @Ken1028 速度快一点, 智商再低一点. 有啥用
    MacsedProtoss
        19
    MacsedProtoss  
       3 天前 via iPhone
    @Ken1028 我在 5090 跑的话主要是上下文开不到非常高,几万吧,到不了 256K ,速度受限在 preprocessing ,吐 token 有几十。如果是 Mac 的话考虑到 preprocessing 估计 64G 的上下文长度和 5090 差不多的情况下速度慢很多
    nexo
        20
    nexo  
       3 天前
    你用这个给龙虾不是找罪受 找气受嘛
    Link99
        21
    Link99  
       3 天前
    除非你是有数据安全的需求 绝对不能联网
    否则性价比还是比较低的
    salor
        22
    salor  
       3 天前
    本地小模型仅用于文生图/AI 女友搞涩涩娱乐,再怎么折腾小学生也干不了大学生的活。
    timeyoyo
        23
    timeyoyo  
       3 天前
    我用 MBP M4 MAX 36G ?尝试部署了一个 千问小模型 , 温度达到了铁板烧,然后还是乖乖充值了
    jieee
        24
    jieee  
       3 天前
    我测试的 m4 max 配置满上下文内存占用 70G+,20t/s
    AmericanExpress
        25
    AmericanExpress  
       3 天前 via iPhone
    M4 max 64gb mem mac studio 跑 gemma4 31b 搭配 opencode 在 mem 够的时候还行,除了第一个回复要等一会
    问题是 mem 一下就不够了,随便跑个 skill mem 占用直接跑到 70gb
    local llm 还是只能跑跑简单的问答
    ggBalloon
        26
    ggBalloon  
       3 天前
    让 Gemini 和 gpt 分别出各种问题测试大模型 qwen3.5-35b-a3b 和 9b 以及 gemma4-26b-a4b ,结果都说 qwen3.5-35b-a3b 表现最稳定,直接淘汰 gemma4-26b-a4b
    TheOutgoing
        27
    TheOutgoing  
       3 天前
    实测,M5 Max Qwen3.5-122b-a10b, gemma4-31b 都是 4bit ,tg 分别为 75 和 28 ,都是非常可用的状态。跑 claude code 不建议,会有 2-3 个并发很影响带宽
    ligogid
        28
    ligogid  
       3 天前 via iPhone
    @EchoWhale 古诗题别说小模型,就是正常模型不调用搜索都是胡说
    EchoWhale
        29
    EchoWhale  
       2 天前
    @ligogid zai-org/glm-4.7-flash 这个模型不错, 43 tokens/s
    当然这种问答白嫖 grok/gemini 就行了, 更快更好
    mapleshadowxda
        30
    mapleshadowxda  
       1 天前 via Android
    淘宝上有 AI 工作站,One XPlayerOneXStation ,这玩意可以,就是价格的再花点钱
    coefu
        31
    coefu  
       16 小时 18 分钟前
    agent 这条路,本身就是跑不通的。理论决定了。

    每次 agent 的成功率到不了 100%,N 步之后,就会降到低于 1%,完全失败。云端无非就是用巨量资源让这个 N 长到能覆盖每个人的任务。端侧的这个 N 因为资源的限制,比云端 api 要低几个数量级。

    云端 api 的体验,在 local 本地,基本上就无法体验到,理论决定了。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2588 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 92ms · UTC 15:55 · PVG 23:55 · LAX 08:55 · JFK 11:55
    ♥ Do have faith in what you're doing.