我们做的是比较的复杂 agent ,目前试下来 kimi 效果最好
1
m952755064 18 小时 1 分钟前
别的没用过,GLM-5 还不错
|
2
VeteranCat 18 小时 0 分钟前
不用纠结,glm kimi 这俩都差不多。 当然能用的话,最好还是 claude 。
|
3
FaustinaD 17 小时 59 分钟前
各有各的拉
|
4
wsseo 17 小时 57 分钟前
GLM-5
新出的 minimax-2.7 小米新出的 mimo-v2-pro doubao-seed-2.0 如果编程不要用 qwen3.5-plus |
5
defaw 17 小时 56 分钟前
昨晚上开了个 minimax m2.7,比之前的 m2.5 强多了,m2.5 的时候工具调用成功率也就 50%。
感觉 m2.7 比 glm4.7 强一些,达到 composer1.5 的水平了 |
6
skuuhui 17 小时 56 分钟前
文无第一。如果是做商业产品,建议用 qwen 系列,并且过段时间你就发现原因了。
|
9
cryptovae 17 小时 52 分钟前
|
10
ddczl 17 小时 52 分钟前
我用的 MiniMax ,满足我 90%的情况。昨天更新的 2.7 我还没怎么试,但是能处理我之前使用 2.5 时一个无法处理的问题了
|
11
liu731 PRO 除去 Qwen 外全部拉跨(最近的 3.5 也跨完了)
|
12
sean250031 17 小时 45 分钟前
投 kimi-k2.5 一票
|
13
catazshadow 17 小时 35 分钟前
谁偷 claude 偷的多谁好
|
14
tinybaby365 17 小时 34 分钟前
QWen3.5 中英文间强加空格不是个案,感觉没训练好就放出来了。
|
15
hrzlvn OP @tinybaby365 indeed
|
16
zhonghao01 17 小时 23 分钟前
GLM 5 / KIMI ,MINIMAX 中规中矩,其他就不要碰了。
|
17
nnnnnnamgn 17 小时 6 分钟前
glm5 凑合用,但贵,minimax 干小活可以
|
18
xyzlucky 17 小时 0 分钟前
别的不知道,但是今天用了一下 Qwen3.5-Plus ,no ,不行。。。。。。。看他干活我心累
|
19
redbeetle 16 小时 56 分钟前
miniMax-M2.5 、KiMI-2.5 使用下来,感觉 KIMI-2.5 更好用些。首先是他的多模态就方便一些,miniIMAX 的 ai 幻觉比 KIMI 更重一点。但 miniMax 有个最大的优点就是便宜量大管饱。智谱的 GLM 没有使用,暂不评论
|
20
fengge0002 16 小时 52 分钟前
https://v2ex.com/t/1199441
看看洗车问题的回答对比,kimi 的逻辑推理还是稍微差点。不过做 agent 也许更重要的是指令听从和工具调用能力 |
22
vthu57924 16 小时 36 分钟前
感觉目前反馈最好的是 GLM-5
|
24
ffxrqyzby 15 小时 55 分钟前
我进来之前以为是高达模型呢
|
25
listenerri 15 小时 33 分钟前
|
26
dunn 15 小时 25 分钟前 via Android
评测每家都很厉害,实际都有差距
|
27
Tink PRO 实测是 kimi2.5 ,一亿有一亿的好
|
28
congyoubanmian 14 小时 43 分钟前
投 kimi2.5 光他识图不用专门调用 mcp 就比 glm5 和 minimax 强 逻辑上弱 glm5 一点,来自三个包年套餐用户体验
|
29
WithoutSugarMiao 13 小时 51 分钟前
之前给小龙虾接的 minimax2.5 我觉得挺好用的。他们昨天又发布了 2.7 还没有测试,据说又有一些增强。
|
30
Sezxy 13 小时 44 分钟前
单写代码,glm-5 和 kimi-k2.5 目前够用,主要还是便宜,一个月一顿饭钱
|
31
soleils 13 小时 41 分钟前
miniMax-M2.7 专门给龙虾优化了
|
32
soleils 13 小时 41 分钟前
@WithoutSugarMiao miniMax-M2.7 专门给龙虾优化了
|
33
JackeyLee233 13 小时 21 分钟前
国内智谱家的还行
|
34
jedeft 13 小时 10 分钟前
写代码方面,同时开了 cursor 和 开发 kimi code 2.5, 用起来 kimi 还是差一些。
|
35
andyxialm 12 小时 48 分钟前
今年高频使用过这些国内模型
kimi k2.5 包月 coding plan minimax 2.5 包月 coding plan minimax 2.7 包月 token plan ,用了 > 24 小时 glm 4.7/5 两个月付费 大前端场景结合 claude code 场景,质量/推理速度 minimax 2.7 > glm5 > kimi k2.5 > glm 4.7 ,token 消耗没有对比,都是 coding plan 真实体验绝无虚假,目前主力在用 minimax 2.7 ,有需要可以走我的 9 折链接: https://platform.minimaxi.com/subscribe/token-plan?code=1H2JTfmyFS&source=link |
36
zhmouV2 12 小时 21 分钟前
试用过几次 kimi 不知道有个啥 bug
我叫它帮忙补一下函数注释 它把我函数第一行给删了: ``` foo() { bar() } ``` 变成这样了 ``` // 乱七八糟的注释 bar() } ``` |
37
CNYoki 12 小时 18 分钟前
现在 Qwen 已经上不了台面了吗
|
39
zhuangzhuang1988 12 小时 11 分钟前
deepseek 最强
|
40
Karmicfire 12 小时 10 分钟前
各有拉点
|
42
unclemcz 10 小时 7 分钟前 via Android
用过 glm4.7 和 minimax2.5/2.7 ,个人感觉 glm 稍好。
|
43
fs418082760 7 小时 2 分钟前
@soleils 目前我用 API 调用不了
|
44
frayesshi1 PRO @zhuangzhuang1988 #39 DS 又慢又 rate limit ,并且工具调用失败概率很大
|
45
coefu 6 小时 10 分钟前
只用了 local qwen3.5 9B 。我觉得还可以。
|
46
jackqian 5 小时 7 分钟前
不要在垃圾国产模型上浪费时间和金钱,模型只有 opus 4.6 和 codex 5.4
|
47
chqome 4 小时 19 分钟前
还是千问厉害,其他都是垃圾
|
48
coolair 3 小时 39 分钟前
我用了 MiniMax 感觉很拉,用 2.5 的时候经常代码写不全。
最近更新了 2.7 ,策略也改了,原来算 Prompts ,现在算模型调用,一会儿就用完了,TPS 也动不动就跑满。 |
49
Librola 2 小时 14 分钟前
@listenerri 这一点 antigravity 之前也是,总是擅自改我无关代码的格式(甚至改功能),因为这一点我直接放弃了 antigravity ,不知道现在好点了没😂
|