这也验证了“框架思维”在SEO实践中的有效性。
arXiv最新论文“How Do AI Agents Spend Your Money?”给出了系统实证数据。研究分析了八个前沿LLM在SWE-bench Verified上的完整轨迹,结果显示Agentic编码任务的token消耗是普通代码推理或聊天任务的1000倍左右,而主导成本的正是输入token,而非输出token。即使启用token缓存,这一规律依然成立。
大多数开发者以为模型越聪明就越省钱,其实恰恰相反。在 agentic 编码场景中,所谓“强模型”往往产生更多无效迭代和上下文膨胀,反而推高了输入 token 的开销。方向是对的,但现实更复杂。
从机制上看,代码审查阶段的高消耗本质源于其高度上下文依赖的对话性质。Agent需要反复将已有代码库、历史修改和测试结果塞入提示中进行分析和反馈,每次交互都重载大量信息,从而形成持续的输入累积。论文将此描述为“对话成本”,并指出这是当前多代理架构的固有特征,而非单纯模型能力问题。优化方向或许在于减少不必要的上下文重复,而非一味追求更强模型。
提示缓存与上下文管理则是直接针对输入重复浪费的实用手段。许多平台已支持 prompt caching,将不变的系统指令或工具定义设为缓存前缀,能将这部分输入 token 价格降至原价的十分之一左右。结合定期用廉价模型生成历史摘要、只保留关键状态的做法,单这一策略在实际项目中常能贡献 25-40% 的节省,避免了每轮循环都重传全量历史的低效模式。
这远超初始设计(2.4%)和编码(8.6%)等前期阶段,输入token整体占比达53.9%,远高于输出token。表面上AI Agent能自主完成SWE-bench任务显得高效,但实际成本结构比想象中复杂得多。
第五,前沿模型对自身token用量的预测能力薄弱,相关系数最高仅0.39,且系统性低估真实成本。这意味着即使顶级模型,也难以在执行前给出可靠预算预估。就像租车却无法提前知道油耗和路线,实际花销容易失控。我的判断是——但这个判断可能需要后续更多开源轨迹数据来修正。
这些观察共同指向一个开放问题:在token消耗高度随机的agentic coding环境中,开发者如何在效率与成本间找到更稳定的平衡点?随着更多实证研究的积累,这一答案或许会逐渐清晰。
arXiv 最新论文《How Do AI Agents Spend Your Money?》对 SWE-bench Verified 数据集上的 8 个前沿大模型进行了系统性分析,结果显示 Agentic Coding 任务的 token 消耗远超普通代码推理或聊天场景,高出约 1000 倍。 更关键的是,成本主要由输入 token 主导,而非输出。
模型间的效率差距也令人惊讶:在相同任务上,Kimi-K2 和 Claude-Sonnet-4.5 平均比 GPT-5 多消耗 150 万以上 token,即使在所有模型都能解决的简单子集上,这种差距依然存在。人类专家对任务难度的主观判断,与实际 token 成本仅呈弱相关,这意味着凭经验估算很容易出错。
大多数开发者目前看到的是代理带来的效率潜力。在SWE-bench这类真实软件工程基准上,顶级代理系统已展现出可观的解决率,许多人因此乐观地认为,部署agentic coding就能显著减少人力投入,将AI从辅助工具升级为独立的工作伙伴。但这一表面叙事往往忽略了背后经济层面的复杂性:token消耗的爆炸式增长并非线性可控。
目前这个阶段,保守一点的策略反而可能留出更多调整空间。