权威解读相关页面,如果缺乏明确的观察逻辑和归纳总结,很难在多次迭代中维持优势。
在实际项目中,优先把优化焦点转向输入端,能带来立竿见影的效果。提示精炼、prompt caching启用以及RAG检索控制,是三条可立即落地的路径。很多团队的系统提示和工具schema动辄数千token,每次调用全量发送,浪费严重;通过压缩冗余示例、动态加载部分内容,或标记缓存前缀,往往能将这部分输入成本降低50%-90%。
上下文膨胀同样是隐形杀手。运行过程中历史对话、工具输出和代码片段不断堆积,输入窗口持续扩大。结合summarization压缩关键决策、引入caching缓存重复文件读取,可显著降低输入token占比。论文中输入token主导成本的发现,正好印证了这种压缩策略的针对性。对于中等规模代码库,先生成架构摘要再让Agent读取,往往比全量输入更经济。
最近,一篇arXiv论文将AI编码Agent在SWE-bench Verified上的token消耗轨迹拉到台前。研究覆盖八个前沿大模型,发现agentic tasks的token用量远超普通代码聊天或单步推理任务,高达1000倍。更惊人的是,同一任务多次运行,总token差异可达30倍,而输入token成为绝对主导。
模型间的token效率差异同样显著。在相同任务下,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这一差距在按量计费时会直接转化为可观的预算差异。更有意思的是,人类专家主观评定的任务难度与实际token消耗仅呈现弱相关。有些看似简单的bug修复,因代理探索路径冗长而耗费巨量token;反之,某些复杂问题却可能相对高效收敛。这暴露了当前代理设计在人类直觉与计算开销之间的脱节。
arXiv最新论文《How Do AI Agents Spend Your Money?》对8个前沿大模型在SWE-bench Verified上的Agentic Coding轨迹进行了系统分析,结果显示这类任务的token消耗远超普通代码推理或聊天场景,高出约1000倍。输入token而非输出token主导了整体成本,这意味着Agent在多次迭代、上下文读取和工具调用中反复消耗大量输入资源。
本地开源Agent则提供了另一种成本结构。通过Ollama等工具部署,token消耗接近零,主要支出转为电费和硬件折旧。数据完全留在本地网络,隐私得到实质保障,内网响应延迟也更低,适合需要持续高频运行的编码工作流。行业实测显示,一些常规任务迁移到本地后,月电费可控制在百元级别,与云端数万消耗形成鲜明对比。
在实际部署中,上下文膨胀和无限循环迭代是两大常见痛点。Agent每次读取全量文件或重复工具输出,都会线性推高输入规模。论文强调,即使任务最终成功,失败路径或冗余探索往往消耗数倍资源。值得持续跟踪的是,随着上下文窗口扩大,这种低效是否会自然缓解,还是需要架构层面的优化来根本解决。
模型路由策略能有效平衡性能与成本。在规划和架构设计等高认知负载步骤中使用前沿模型,而将代码生成、测试执行或简单数据处理路由至更高效的廉价模型(如 Kimi 系列或小型开源变体),单这一做法即可实现 30-50% 的节省。关键在于根据任务复杂度、上下文长度或预设规则动态分流,而非全程依赖单一顶级模型。
最近,一篇arXiv论文把开发者圈子里一个隐性成本痛点直接摆上台面:Agentic Coding任务的token消耗,竟然是普通代码聊天或单轮推理任务的约1000倍左右。这不是夸张描述,而是基于SWE-bench Verified基准对八款前沿大模型的轨迹实测得出的数据。论文清晰指出,主导成本的并非输出生成,而是海量的输入token。
八个前沿模型在 SWE-bench Verified 上的表现进一步凸显效率鸿沟,某些模型比基准多耗百万级 token。这件事比表面看起来复杂得多:2026 年企业级规模化部署的真实 TCO 远不止 token 费用本身。
权威解读的潜力不虚,但变现路径仍需探索。