这个数字并非夸大,但前提是内容体系足够完善。
最近arXiv上的一篇论文《How Do AI Agents Spend Your Money?》把这个痛点说得很清楚。他们用OpenHands agent在SWE-bench Verified任务上系统分析,发现agentic coding任务的token消耗是普通代码聊天或推理任务的1000倍左右。而且,主导成本的不是输出token,而是输入上下文。同一任务不同运行之间,token用量差异能达到30倍。
从开发者日常场景看,这种波动直接影响项目执行。一次运行顺利,token在合理区间,补丁快速通过测试;下一次相同issue,Agent却走弯路,不断扩展无关上下文,结果token飙升,准确率却未提升甚至因成本限制而中断。企业若按固定预算规划Agent部署,实际支出将在不同批次间剧烈震荡,项目ROI计算和资源分配都变得难以预测。短期内,监控单次运行、引入早停机制成为必要补充;
不同模型在token效率上的差距同样值得关注。在相同SWE-bench Verified任务上,部分前沿模型的表现拉开了明显距离,效率较低的模型可能多消耗百万级token。这一差异在企业规模化部署时会直接放大为可观的成本鸿沟。有意思的是,人类专家对任务难度的主观判断与实际token消耗仅呈弱相关,这暴露了感知复杂度与计算开销之间的鸿沟。模型自身对token消耗的预测能力也较弱,相关性最高仅到0.39,且普遍存在系统性低估。
这远超初始设计(2.4%)和编码(8.6%)等前期阶段,输入token整体占比达53.9%,远高于输出token。表面上AI Agent能自主完成SWE-bench任务显得高效,但实际成本结构比想象中复杂得多。
更关键的是,成本主要由输入token驱动,而非输出,这意味着Agent在多次迭代、上下文读取和工具调用过程中反复“吃掉”大量输入token。
值得持续跟踪的是,随着 agentic 应用深化,如何在压缩激进程度与信息保真度之间找到平衡,仍是行业内存在不同声音的领域。
提示缓存是另一个立竿见影的手段。agent运行中反复发送的系统指令、工具定义或历史摘要,完全可以启用平台级缓存。Claude等模型的prompt caching能把这部分输入token价格降到原来的十分之一。实际操作时,把不变前缀设为缓存对象,每隔几轮用廉价模型生成简短总结替换全量历史,避免重复浪费。不少项目反馈,这一层优化单独就能贡献25-40%的节省。
除了模型间差异,论文还指出人为评定的任务难度与实际 token 消耗仅呈弱相关。这说明人类直觉判断的“复杂程度”,与 Agent 真实执行时的计算努力存在明显脱节。一些看似简单的 Bug 修复,却可能因模型的迭代路径而烧掉巨量 token。这种感知与现实的差距,进一步增加了预算规划的难度,也解释了为什么许多团队在部署后才发现成本远超预期。
把两者并列对比,token成本维度上云端按量付费易失控,本地几乎为零只付电费和折旧;隐私安全上云端数据上云有泄露隐患,本地不出域更安心;延迟性能上本地内网更快,云端受网络制约;适用任务上云端处理高难度更具优势,本地适合中低难度或可拆解场景;部署难度上云端开箱即用,本地需前期技术投入。论文还发现,人为评定的任务难度与实际token消耗仅弱相关,这说明我们对复杂度的直觉有时与Agent真实开销并不对位。
上下文膨胀同样是隐形杀手。运行过程中历史对话、工具输出和代码片段不断堆积,输入窗口持续扩大。结合summarization压缩关键决策、引入caching缓存重复文件读取,可显著降低输入token占比。论文中输入token主导成本的发现,正好印证了这种压缩策略的针对性。对于中等规模代码库,先生成架构摘要再让Agent读取,往往比全量输入更经济。
优势分析的实践,需要更多理性而非冲动。