这提醒从业者需要持续积累行业洞察。
表面现象往往掩盖了更深层的机制。大量用户和媒体讨论集中在抱怨 Claude Code “突然不行了”,部分观点指向 Anthropic 透明度不足,甚至猜测公司为控制成本有意降低智能。主流声音多停留在模型能力或公司态度的层面,却较少触及产品工程细节。这种认知盲区并不意外——开发者习惯将 AI 工具的表现直接映射到底层模型,却忽略了模型外层的 harness 系统,它像隐形框架一样,悄然决定最终输出体验。
修复后,Claude Code在复杂任务中的表现回归强劲,尤其大上下文、多文件重构场景下,思考深度和低级错误控制均有明显提升。开发者处理大型代码库架构调整时,能感受到更连贯的规划能力。这次事件也提醒行业,AI编码工具的可靠性不仅取决于模型本身,产品层面的细微变更同样可能带来连锁影响。数据支持这个方向,但样本量和场景覆盖仍需更多验证,值得持续跟踪,现在下结论为时尚早。
年4月,AI编码工具的选择困境比以往任何时候都更突出。开发者在高强度迭代中频繁遇到Claude Code被吐槽“变笨”“忘性大”“token消耗异常”的反馈,而Cursor的重构循环和GitHub Copilot的上下文幻觉问题也层出不穷。选错工具不仅拖慢交付节奏,还会显著抬高debug成本。
从Claude high vs medium reasoning的对比中可以看出,medium努力虽然在简单任务上更快,却容易让输出缺少“多想一步”的深度,尤其在多文件代理式工作流中。这次事件提醒整个AI编码工具行业,单纯追求低延迟可能牺牲编码智能影响。70%和7%之类的剪刀差在类似部署场景中反复出现,数据支持默认高智能的方向,但样本量和具体项目复杂度仍需更多验证。
第二个变更源于缓存优化的bug。3月26日上线的优化,本意针对闲置超过一小时的会话,清除旧thinking内容以减少恢复延迟和token负担,采用clear_thinking头和keep:1参数。但实际执行出错,清除动作并非仅一次触发,而是每轮对话都发生,导致累积的reasoning历史逐步丢失。上下文渐失后,模型继续任务时容易重复思考,工具调用出现异常,前后逻辑不连贯。会话越长、工具链越复杂,影响越显著。
过去一个月,Claude Code 在开发者社区的反馈突然转向负面。不少长会话编码任务中,模型开始出现明显的健忘症状:先前选择的工具路径被遗忘,重复生成相似代码,决策逻辑逐渐漂移。Anthropic 4月23日发布的 postmortem 报告揭示了根源,其中3月26日的缓存优化变更最致命,本意是通过 prompt caching 减少闲置会话恢复延迟,却因 bug 导致思考历史在每轮对话中都被清除。
对开发者而言,自建agent或深度使用AI编码工具时,不能只把精力放在prompt调优上,必须将harness设计——工具约束、状态持久化、缓存策略——视为核心竞争力。数据支持这个方向,但样本量和公开案例仍有限,值得持续跟踪,现在下结论为时尚早。
大多数开发者最初观察到的,是Claude Code在复杂任务上表现明显下滑:多文件重构时反复思考同一问题,上下文遗忘频繁,生成的代码质量肉眼可见下降。Hacker News、Reddit和X平台上,主流声音倾向于猜测模型退化或Anthropic偷偷降配以控制成本。这些讨论热闹却忽略了一个关键盲区——问题主要出在Claude Code的harness工具层,而非核心推理能力。
深层来看,这次缓存bug的核心在于3月26日的优化改动本意是为idle超过1小时的会话仅清除一次较旧thinking历史,以降低恢复latency并控制token开销。可实际执行中,清除操作却变成了每turn一次,导致cache miss频发,历史推理链条被反复丢弃。Claude仍在继续工具调用和编码任务,却逐渐失去对先前决策的记忆。这直接削弱了其在大型代码库多文件重构中的核心优势——一次性把握跨文件依赖并维持长会话一致性理解。
内部评估显示,medium能在多数任务上实现略低智能但显著更快的响应,然而用户很快在Hacker News和Reddit等社区反馈编码质量感知下降,模型更倾向简单修复而非深度链式思考。
一点目前行业内仍有不同声音,未来格局如何,仍需时间给出答案。