1
MacsedProtoss 3 天前 via iPhone
这个玩意估计不太行 openclaw 还是跑蛮多代码相关的。这个模型感觉还是传统对话为主
|
2
qweruiop 3 天前
受限于上下文,太慢了,回复质量太差了。。。
|
3
Jh1n 3 天前
64G 我试过,龙虾请求频次太高了顶不住的,还有龙虾过时了建议用 Hermes
|
4
huanxianghao 3 天前
感觉智商不够,等 gemma5
|
5
Ken1028 OP @MacsedProtoss 纯 LM Studio 跑速度如何?
|
6
zyxk 3 天前
我使用 lm studio , 加载不了 gemma4 mlx 系列,提示是不支持,gguf 系列可以正常用, 想问一下 mlx 系列怎么正常使用。
|
7
penisulaS 3 天前 小模型像是弱智员工,啥工作都不派给他就是最省心的
|
8
liu731 PRO 参数太小了,玩玩可以。生产还是 opus 吧~
|
10
wangtufly 3 天前 via Android
试过了,不得行。Mac mini m4pro 64G 基本上不能用的状态。
|
11
Dream4U 3 天前
本来 AI 最大的问题就是不确定性,你再配这么个本地模型,纯折腾。
|
12
nc 3 天前
搞个 nsfw 版提供情绪价值倒是挺好
|
13
kirbyzhu 3 天前 via iPhone
小模型不行
|
14
EchoWhale 3 天前
64G macmini m4 pro, gemma4 31B Q6K
很慢, 非常慢, 10token/s. 而且智商也一般 有个钱买套餐都够好多年了 |
15
EchoWhale 3 天前
|
16
nabanbaba 3 天前
工作,正常用途,还是调公有云接口吧
像楼上说的数据本地化,nsfw 折腾才考虑本地部署,基本上也就是折腾着玩,打发时间。 m3ultra 在 openclaw 这种十万级别的上下文推理效果估计都一般。 |
19
MacsedProtoss 3 天前 via iPhone
@Ken1028 我在 5090 跑的话主要是上下文开不到非常高,几万吧,到不了 256K ,速度受限在 preprocessing ,吐 token 有几十。如果是 Mac 的话考虑到 preprocessing 估计 64G 的上下文长度和 5090 差不多的情况下速度慢很多
|
20
nexo 3 天前
你用这个给龙虾不是找罪受 找气受嘛
|
21
Link99 3 天前
除非你是有数据安全的需求 绝对不能联网
否则性价比还是比较低的 |
22
salor 3 天前
本地小模型仅用于文生图/AI 女友搞涩涩娱乐,再怎么折腾小学生也干不了大学生的活。
|
23
timeyoyo 3 天前
我用 MBP M4 MAX 36G ?尝试部署了一个 千问小模型 , 温度达到了铁板烧,然后还是乖乖充值了
|
24
jieee 3 天前
我测试的 m4 max 配置满上下文内存占用 70G+,20t/s
|
25
AmericanExpress 3 天前 via iPhone
M4 max 64gb mem mac studio 跑 gemma4 31b 搭配 opencode 在 mem 够的时候还行,除了第一个回复要等一会
问题是 mem 一下就不够了,随便跑个 skill mem 占用直接跑到 70gb local llm 还是只能跑跑简单的问答 |
26
ggBalloon 3 天前
|
27
TheOutgoing 3 天前
实测,M5 Max Qwen3.5-122b-a10b, gemma4-31b 都是 4bit ,tg 分别为 75 和 28 ,都是非常可用的状态。跑 claude code 不建议,会有 2-3 个并发很影响带宽
|
30
mapleshadowxda 1 天前 via Android
淘宝上有 AI 工作站,One XPlayerOneXStation ,这玩意可以,就是价格的再花点钱
|
31
coefu 16 小时 18 分钟前
agent 这条路,本身就是跑不通的。理论决定了。
每次 agent 的成功率到不了 100%,N 步之后,就会降到低于 1%,完全失败。云端无非就是用巨量资源让这个 N 长到能覆盖每个人的任务。端侧的这个 N 因为资源的限制,比云端 api 要低几个数量级。 云端 api 的体验,在 local 本地,基本上就无法体验到,理论决定了。 |