它更像一场需要持续学习、数据支持、专业判断和经验积累的动态过程。
当然,优化不是一劳永逸。Agent架构仍在快速迭代,未来上下文压缩技术和原生长上下文支持可能进一步改变成本结构。但在当前阶段,把注意力从“输出溢价”转向“输入主导”,已是大多数团队能立刻调整预算逻辑、避免项目超支的务实一步。值得持续跟踪的是,随着Agent规模化部署,这一输入主导的经济学规律会如何影响整个LLM生态的定价模型。
最近arXiv上那篇《How Do AI Agents Spend Your Money?》把agentic coding的真实成本摊在了台面上。agentic任务的token消耗能达到普通代码聊天或单轮推理的1000倍左右,而且主导支出的不是模型吐出的代码,而是不断膨胀的输入上下文。同一任务不同运行间,用量波动可达30倍,这让预算控制变得格外棘手。
这一点目前行业内仍有不同声音。数据支持随机性是主要驱动,但样本量和框架差异可能影响泛化程度。值得持续跟踪,现在下结论为时尚早。
当然,GPT-5 并非在所有维度都领先。在某些需要极致深度推理的复杂场景下,它的准确率可能存在一定局限,团队仍需根据具体任务特性进行权衡。但对于预算敏感或追求稳定部署的开发者而言,这类 token 高效模型提供了更务实的平衡点。省 token,本质上就是在控制真实开发成本,而非简单牺牲性能。
另一个反直觉发现是准确率与token消耗的关系。高消耗并不必然对应高准确率。数据表明,准确率常在中间成本区间达到峰值,继续堆token后表现趋于饱和甚至浪费。Agent可能陷入冗长循环,重复无效路径,却没带来实质进步。这就像人类专家对任务难度的主观感知,与Agent实际计算努力存在脱节——看似棘手的bug有时只需少量token解决,而简单问题却因路径随机耗费巨量资源。人类评分与真实token成本的相关性微弱,进一步印证了这种差距。
最近一篇arXiv论文把AI代理在编码任务中的token消耗模式摆到了台面上。这项研究分析了八个前沿大模型在SWE-bench Verified基准上的完整代理轨迹,首次系统性揭示了代理经济的核心矛盾:表面上看,AI代理能处理多步复杂工作流,提升效率,但实际token开销远超普通代码推理或聊天场景,输入token成为主导成本。行业内许多人仍乐观认为代理会自然带来高价值产出,却往往忽略了这个隐性黑箱。
arXiv最新论文“How Do AI Agents Spend Your Money?”给出了系统实证数据。研究分析了八个前沿LLM在SWE-bench Verified上的完整轨迹,结果显示Agentic编码任务的token消耗是普通代码推理或聊天任务的1000倍左右,而主导成本的正是输入token,而非输出token。即使启用token缓存,这一规律依然成立。
模型路由是性价比最高的一招。不是所有步骤都需要最贵的顶级模型。复杂规划用Claude或GPT系列确保方向正确,子任务执行、简单代码生成就切换到Kimi或小型高效模型。在LangGraph里设置路由规则,根据复杂度或上下文长度自动分流,一个修复GitHub issue的agent就能把整体成本降30-50%。
不同模型间效率差异显著,例如Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多消耗超过150万token。这件事比表面看起来复杂得多:2026年企业级规模化部署的真实TCO远不止token费用本身。
大多数媒体和开发者目前对AI Agent的关注仍集中在效率提升上。SWE-bench等基准显示agentic系统在软件工程任务中表现亮眼,行业普遍热议其潜在万亿级价值。主流观点倾向于认为,随着模型迭代进步,token成本会逐步可控甚至快速下降。不少团队在试点阶段感受到产出加速,便默认预算风险可管理。
从多个报告的交叉验证看,失误分析正处于关键拐点。但这个拐点究竟是加速上升还是温和调整,目前行业内仍有不同声音。