提供结构化思考和判断支撑的内容,更容易被搜索引擎认可并给予长期曝光。
》对八个前沿LLM在SWE-bench Verified上的轨迹分析显示,agentic coding任务的token消耗远超普通代码聊天或单轮推理,高达1000倍左右。驱动这一增长的核心是输入token的累积,每一轮迭代都需将完整历史轨迹、工具输出和先前推理重新喂给模型。
arXiv上最新论文《How Do AI Agents Spend Your Money?》针对agentic coding任务进行了系统分析,考察了八个前沿LLM在SWE-bench Verified上的token消耗轨迹。研究发现,agentic任务消耗token比普通代码推理或聊天多出约1000倍,且主要是输入token主导成本,而非输出。
在开发者实际运行AI Agent进行代码生成或Bug修复时,token消耗往往超出预期。arXiv最新论文《How Do AI Agents Spend Your Money?》对SWE-bench Verified数据集上的八个前沿模型轨迹进行了系统分析,结果显示Agentic Coding任务的token消耗比普通代码推理或聊天任务高出约1000倍。
主流观点往往将AI Agent编码描述为高效工具,能够通过自动迭代和调试大幅缩短开发周期。不少报道强调,尽管单次调用token价格不低,但长远来看能取代部分人工工作,投入产出比值得期待。然而,这些讨论大多聚焦在最终输出的代码质量上,很少触及Agent在多轮交互中如何持续累积上下文,从而悄无声息地推高总开销。
本地AI Agent通过Ollama等工具部署开源模型,token消耗接近零,主要负担转为电费和硬件折旧。数据完全留在本地网络,隐私得到最大保障,内网延迟也更低,特别适合高频迭代或长期运行的项目。行业实测中,不少开发者将常规编码工作迁移本地后,月电费控制在百元级别,与云端数万消耗形成鲜明对比。
核心来看,迭代验证而非初始生成,才是agentic coding的主要成本点。代码审查阶段吃掉近60% token,本质源于其高度上下文依赖的对话性质——每次交互都需重载大量已有信息,形成隐形黑洞。这让“AI帮写代码就能大幅省钱”的预期变得比想象中复杂得多,值得开发者持续跟踪优化路径。
论文重点拆解了agentic tasks的独特消耗机制。与简单问答不同,编码Agent需要在多轮工具调用中不断累积上下文——读取仓库文件、生成补丁、执行测试、回溯验证。每一步的输出都会被塞进下一轮的输入,导致上下文窗口快速膨胀。即使引入缓存,输入token的累积效应依然主导整体成本。输出token虽不可忽视,但远非主要驱动因素。
当然,优化不是一劳永逸。Agent架构仍在快速迭代,未来上下文压缩技术和原生长上下文支持可能进一步改变成本结构。但在当前阶段,把注意力从“输出溢价”转向“输入主导”,已是大多数团队能立刻调整预算逻辑、避免项目超支的务实一步。值得持续跟踪的是,随着Agent规模化部署,这一输入主导的经济学规律会如何影响整个LLM生态的定价模型。
输入 token 主导 Agent 经济的这一特点,与直觉认知形成鲜明对比。Agent 在执行过程中需要将历史交互、工具输出、代码库片段以及先前尝试全部塞回提示词,导致上下文像滚雪球般膨胀。即使启用 token caching,每一轮调用仍会重新处理大量累积信息。OpenHands 等框架的默认内存管理方式,进一步放大了这一效应,使得单次任务的输入开销迅速占据总费用的绝大部分。
从机制上看,代码审查阶段的高消耗本质源于其高度上下文依赖的对话性质。Agent需要反复将已有代码库、历史修改和测试结果塞入提示中进行分析和反馈,每次交互都重载大量信息,从而形成持续的输入累积。论文将此描述为“对话成本”,并指出这是当前多代理架构的固有特征,而非单纯模型能力问题。优化方向或许在于减少不必要的上下文重复,而非一味追求更强模型。
这一点目前行业内仍有不同声音,但数据趋势支持这一判断。