越打越顺手的搜索行为呈现出明显的结构化需求。
月16日引入的系统提示长度限制,要求工具调用间文本不超过25词、最终响应不超过100词(除非任务需要更多细节),原本旨在减少冗长输出,却直接造成编码质量评估下降约3%。这些变更分别影响了 Claude Code、Claude Agent SDK 和 Claude Cowork,不同流量切片叠加后,问题呈现出随机且难以复现的特点,这也是早期内部调查难以立刻对上的原因。
反之,若 Anthropic 落实新承诺,如创建 @ClaudeDevs 账号、加强 GitHub 更新和渐进 rollout,或许能成为正面标杆。
表面上看,这次调整被社区解读为Claude Code“变笨”的典型案例。大量用户吐槽输出质量下滑,尤其在架构设计或棘手bug修复场景中,模型不再像以前那样主动探索边缘情况。Anthropic最初的评估框架是明确的:high模式虽强,但对部分用户造成了实际痛点,包括界面无响应和不必要的计算开销。他们随后尝试通过启动提示、inline努力选择器等迭代来缓解,但多数开发者仍依赖默认设置。
缓存bug尤其致命,它让原本连贯的agentic工作流碎片化,每一次交互都像编译器强制清缓存,从头分析依赖。开发者本计划用Claude Code推进backlog,却发现一个月下来限额消耗远超预期,项目进度反而被拖累。这也解释了为什么单纯对比模型版本难以复现问题——根源在工程层面的trade-off判断,而非模型能力本身。
最近不少开发者在处理大型代码库时,突然发现Claude Code的表现出现明显下滑。长会话中模型开始重复输出、遗忘先前建立的推理链,甚至工具调用也显得前后不一致。Anthropic在4月23日发布的官方postmortem中确认了这一问题,指出3月至4月期间三个改动叠加,导致用户反馈集中在“变笨、忘事、token消耗异常快”上。这件事远比表面上的模型退化复杂,长上下文编码的脆弱性由此被彻底暴露出来。
从行业观察来看,这类事件正推动2026年AI编码工具质量保障向更结构化的方向演进。短期内,厂商大概率会强化ablation testing、延长soak periods,并采用渐进式rollout以避免类似叠加风险,用户反馈通道如公开GitHub线程或专用社区也会更加常态化。长期而言,“自适应harness”概念有望成为主流,它能根据实际使用动态调整参数,支持开发者参与beta测试并实时监控质量指标。
值得持续跟踪的是,Anthropic 未来能否真正加强 dogfooding 和渐进 rollout,否则重置措施或将成为常态,却难以彻底消除用户顾虑。
Anthropic 在 4 月 23 日发布的 postmortem 报告中,坦承三个产品层变更叠加导致 Claude Code 质量感知下滑:3 月 4 日默认推理努力从 high 降为 medium 以缓解延迟,3 月 26 日缓存优化 bug 造成会话中反复清除推理历史,4 月 16 日为减少冗长而引入的系统提示词长度限制。
这一点目前行业内仍有不同声音。Anthropic 承诺加强 dogfooding、更广的 eval suite 以及系统提示审计,但类似变更未来是否还会以其他形式出现,仍值得开发者持续跟踪。数据支持产品层调整的方向,但样本量和复现难度提醒我们,现在下结论为时尚早。
Anthropic于4月23日发布的postmortem报告直指问题根源并非模型权重退化,而是三个独立的产品层变更在不同时段、不同流量切片上叠加,制造出一种广谱却不一致的退化假象。这件事比表面“降智”看起来复杂得多,它暴露了AI编码工具在效率与智能之间微妙的权衡。
它不是万能的保险,却能在关键时刻提供必要的缓冲。