V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yarkyaonj
V2EX  ›  Claude Code

claude code 降智被实锤了

  •  1
     
  •   yarkyaonj · 3 天前 · 7760 次点击

    上周 Claude Opus 4.6 在 BridgeBench 的幻觉基准测试中排名第 2 ,准确率达 83.3%。

    今天 Claude Opus 4.6 重新测试后,在排行榜上跌至第 10 ,准确率仅 68.3%。

    可以确认 Claude Opus 4.6 的推理水平降低,确实被削弱了。

    图片

    https://imgur.com/a/u7Np8Wk

    38 条回复    2026-04-14 17:55:45 +08:00
    gpt5
        1
    gpt5  
       3 天前
    我也很明显感受到了它现在经常颠三倒四
    yougo
        2
    yougo  
       3 天前
    https://aistupidlevel.info/ 这里有实时的版本 昨天一度降到比 sonnet 还蠢。我已经因为服务质量申请全额退款 并且不会再考虑 claude code 订阅
    hitrip
        3
    hitrip  
       3 天前
    不一定是永久降智,有时候是环境 bug 引起的
    yarkyaonj
        4
    yarkyaonj  
    OP
       3 天前
    @hitrip 全球用户都反映有降智现象,现在又有数据实锤
    nc
        5
    nc  
       3 天前
    A\估计在训练新模型,临时降智一下,GPU 优先给训练。A\在基础设施投资这块完全比不上 OpenAI ,公司内部两个团队在疯狂抢 GPU 。
    FqwKVgsv
        6
    FqwKVgsv  
       3 天前
    非常非常明显的感觉到 claude 降智了 甚至我有时候说的问题的意思都没搞懂 得给它解释意思解释了半天
    yarkyaonj
        7
    yarkyaonj  
    OP
       2 天前
    @nc 问题是这对已经付费的用户很不公平,付了一个月或者一年钱,结果半途降智
    whoosy
        8
    whoosy  
       2 天前
    升级到 2.1.104 版本再试试,昨天已经变聪明了
    potatowish
        9
    potatowish  
       2 天前 via iPhone
    api 也降智? 价格还是一样的
    fredweili
        10
    fredweili  
       2 天前
    opus 贵的多,就用 sonnet
    yuruizhe
        11
    yuruizhe  
       2 天前
    降智是什么意思?
    66beta
        12
    66beta  
       2 天前
    很明显,让它从一个页面上抓取一些数据都抓不全,不过别难过,gemini 也这个吊样。如果是自己出钱,建议大家去试试国产 AI
    EthanZC
        13
    EthanZC  
       2 天前
    算力不够,就这样,无解
    yarkyaonj
        14
    yarkyaonj  
    OP
       2 天前
    @yuruizhe 就是变笨了,智商下降的意思
    deplives
        15
    deplives  
       2 天前
    是的,最近很明显能感觉出来。opus 甚至很多时候不如 sonnet 了
    gpt5
        16
    gpt5  
       2 天前
    网页版和 cli 上都明显感受到了降智
    zerovoid
        17
    zerovoid  
       2 天前
    @yuruizhe #11 就跟下棋一样,比如平时高手能算到 50 步以后的局势,现在只能算到 10 步以后,那大家肯定能感觉出来这个高手变笨了。
    teaguexiao
        18
    teaguexiao  
       2 天前
    最近确实感受到了。之前用 Opus 处理复杂的多文件重构任务,能一次把上下文全理清楚;最近同样的任务开始频繁出现循环、重复修改的情况。用 API 调用也是一样的表现,不是客户端的问题。现在形成习惯了:重要任务配合 Sonnet 一起用,Sonnet 做大部分工作,Opus 只负责高层设计和少量关销节点。怪的是这样反而更稳定了。
    isora
        19
    isora  
       2 天前
    copilot 上也是写完让审查下代码都没发现问题,然后让 gpt5.4 审查下一下就发现问题,再把问题给 opus 确认修复
    sentinelK
        20
    sentinelK  
       2 天前
    所以在如此背景的前提下,一堆人还在炒作基于 LLM 的工程化实现的优劣,简直贻笑大方。
    lsearsea
        21
    lsearsea  
       2 天前 via Android
    a\还能算力不够?被谁卡脖子?
    vultr
        22
    vultr  
       2 天前
    用 codex 也不错的说
    longxinglink
        23
    longxinglink  
       2 天前
    我看的是这个检测网站的数据,是个带立场的跟踪站,不是完全中立
    他家用相同一套题目给 Claude 和 gpt 做,Claude 的数据对比上个月甚至还有改善,不知道楼主的数据来自那里?
    https://marginlab.ai/trackers/claude-code/
    https://marginlab.ai/trackers/codex/
    MengLUO
        24
    MengLUO  
       2 天前
    某国产顶流近期一夜之间把大量月付 400 多的 max 用户账号降到连你好都 429 禁止访问
    csfreshman
        25
    csfreshman  
       2 天前
    估计算力紧张,让出算力给新模型了?
    xFrye
        26
    xFrye  
       2 天前
    说明新模型要出来了
    prosgtsr
        27
    prosgtsr  
       2 天前
    每次要出新模型的时候,旧模型都会降智,不过以前是等等新模型出来用新模型就好了
    这次是出了新模型,但是不给你用,所以我们现在用的全都是降智的。。
    Plutooo
        28
    Plutooo  
       2 天前
    要跟几天后的 gpt6 中门对狙了
    craftsmanship
        29
    craftsmanship  
       2 天前 via Android
    @xFrye 已经出了 但不给用
    loveshuyuan
        30
    loveshuyuan  
       2 天前
    同样感受到降智
    beimenjun
        31
    beimenjun  
    PRO
       2 天前
    这家实在太爱又当又立了。

    我使用官方 200 刀套餐,周末感受到了前所未有的降智感。

    之前还说什么不会因为算力不足 blabla 。

    明显只是少数人使用的新模型,就让 Opus 算力被削弱成这样。就算今天都没恢复。
    tianhehechu
        32
    tianhehechu  
       2 天前
    @yuruizhe 以人类比,人 ⌈降智⌋ 后,会在此问题下问:⌈降智是什么意思?⌋
    fovecifer
        33
    fovecifer  
       2 天前
    前一阵是 token 消耗过快的问题
    现在是降智
    alexluo1
        34
    alexluo1  
       2 天前
    去年有过一次全球范围的降智,是 bug 引起的,那时候我刚开了 100 刀套餐,血亏
    apibox
        35
    apibox  
       2 天前
    确实,最近特别明显
    superkite
        36
    superkite  
       1 天前
    claude 要出 mythos 了,现在算力全往这个 agi 模型上倾斜
    piaca
        37
    piaca  
       1 天前
    小声点,别让官方听见封我们的号
    qiqw
        38
    qiqw  
       1 天前
    确实太明显了, 今天用了一天, 感觉傻傻的, opus4.6 开 high, 动不动就道歉, 难受呀
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5371 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 128ms · UTC 01:29 · PVG 09:29 · LAX 18:29 · JFK 21:29
    ♥ Do have faith in what you're doing.