这个能力差,正在拉开不同站点之间的长期表现。
表面上看,用户社区的反应相当直接而情绪化。大量帖子描述 Claude Code “一夜之间就不行了”,部分开发者甚至猜测是为了控制成本而故意降低智能表现。讨论焦点多停留在底层模型或 Anthropic 的响应速度上,很少有人第一时间将问题归因于产品层面的细微配置调整。
harness 在 AI 编码工具中的作用,类似汽车的底盘、悬挂和控制系统。引擎再强劲,如果底盘调校失当,整车开起来也会发飘、失控,甚至突然显得“笨拙”。底层模型参数或基准分数固然重要,但用户端真实体验越来越取决于 prompt 工程、上下文持久化、缓存策略以及变更控制等系统工程能力。单纯追逐最新模型,而忽视这些基础设施建设,迟早会遭遇类似系统性下滑。
过去一个月,开发者在Hacker News和Reddit等社区频繁吐槽Claude Code代码生成质量下滑,代码重复、上下文忘却、工具调用偏差等问题层出不穷。Anthropic于4月23日发布的官方postmortem确认,这并非底层模型退化,而是三个产品层变更在不同时段和流量切片上叠加所致,API未受影响。事件从3月初反馈积累,到4月20日v2.1.116版本全部修复并重置额度,这件事暴露了大模型产品迭代中工程变更的隐形风险。
表面上,用户在Hacker News、GitHub issues和Reddit上集中反馈的,是Claude Code在长会话中“变笨”的现象。模型会忘记先前分析过的跨文件依赖,反复提出相同修改建议,同时token消耗异常加速。许多人将此归因于模型整体退化或单纯的latency优化。但这些观察往往忽略了缓存机制与上下文状态维护之间的深层交互,尤其在会话idle一段时间后,损伤会逐步累积。
4月16日新增的 verbosity 限制——工具调用间不超过25词、最终响应不超过100词——则让编码质量评估下滑约3%,四天后即被移除。
最近几周,开发者社区在Hacker News、Reddit和X上充斥着对Claude Code的吐槽:代码生成质量下滑、上下文记忆变差、工具调用显得随意。Anthropic在4月23日发布的postmortem报告中直面这些反馈,承认问题源于三项独立的工程变更——而非底层模型退化。这些变更分别在3月和4月上线,叠加后形成了广泛却不一致的“降智”感知。4月20日版本v2.1.116已全部修复,并重置了订阅者的使用限额。
普通开发者在重置窗口期,应尽快检查账户限额状态,优先推进之前因重复思考而卡住的关键模块编码。同时养成备份重要提示、准备多模型切换的习惯,避免把任何单一工具当成唯一生产力支柱。Anthropic提到会通过新账号@ClaudeDevs分享工程进展,这或许能让沟通更及时,但真正考验开发者信心的,还是工具在生产环境中的长期稳定性。
对依赖多轮迭代的编码任务而言,这种每轮清除思考历史的机制破坏力极大。Claude Code原本通过保留完整的思考历史,来记住“为什么选择某个工具”或“上一步修改路径的逻辑依据”。一旦短期记忆链被反复切断,模型就只能基于最近有限上下文继续工作,结果是决策漂移、重复工作增多,整体效率出现断崖式下降。这个过程就像程序员每写一行代码就忘掉上一步整体需求,长上下文本该是优势,却彻底变成了劣势。
从短期看,问题已在 4 月 20 日全部修复,Anthropic 还为订阅用户重置了使用额度,缓解了异常消耗的痛点。但若开发者在 3-4 月依赖 Claude Code 处理关键任务,可能需要回顾当时输出,检查是否存在重复逻辑或上下文丢失留下的潜在风险。长期来看,这件事对 AI 编码工具行业意味着,在追求性能优化时,产品 harness 变更需更谨慎的把控与透明机制。
将三个变更并置,便能理解用户为何感知到“全面退化”。推理努力降低拉低了基础智能基线,缓存bug破坏了上下文连贯性,让重复与工具异常频发,而verbosity限制直接削减了编码所需的细节。三者影响的模型版本和流量切片存在重叠却不完全一致,加上用户场景差异,就形成了看似广谱实则碎片化的体验问题。就像三条独立的小河,汇流后突然放大成难以预料的冲击。这也提醒行业,产品层看似微小的调优,在用户侧往往被放大为明显质量波动。
多家企业案例表明,规模化仍面临瓶颈。