希望能帮你更快找到适合自己的那一款。
人类专家对任务难度的主观评定,与代理实际消耗的 token 量仅呈现弱相关。这一点尤为值得注意:我们感知为高难度的编码问题,代理有时能以相对节制的资源解决;而看似 routine 的修复,却可能让代理陷入冗长循环,推高开销。人机在复杂度认知上的差距,成为代理经济中一个难以回避的摩擦点。
开发者长期以来习惯用人类经验预估AI Agent成本,认为任务逻辑越复杂、涉及多轮调试越多,token开销就越高。这种直觉在普通聊天或单步推理场景中或许成立,但在agentic workflow里却频频失效。论文指出,agentic任务整体比普通代码推理高出约1000倍token消耗,但内部变异远比表面数据更剧烈,主流讨论往往只停留在“整体昂贵”层面,忽略了随机性和模型差异带来的系统性偏差。
》通过SWE-bench Verified上的轨迹数据分析发现,agentic coding任务的token消耗比普通代码聊天高出约1000倍,而且成本主要由输入token驱动,而不是输出的生成部分。这让不少人开始意识到,AI工具如果不加以控制,很容易从生产力助手变成隐形烧钱机器。
最近,一篇刚登上arXiv的论文“How Do AI Agents Spend Your Money?”把AI Agent在编码任务里的真实开销问题摊开了。研究团队追踪了八个前沿大模型在SWE-bench Verified上的完整执行轨迹,发现agentic coding任务的token消耗远超传统代码推理或聊天场景,动辄高出1000倍左右,而主导成本的并非大家以为的输出生成代码,而是反复堆积的输入上下文。
不同前沿模型在相同 agentic coding 任务上的效率差异显著。例如 Kimi-K2 和 Claude-Sonnet-4.5 在部分轨迹中平均比 GPT-5 多消耗超过 150 万 token。这一差距并非单纯由模型能力决定,而是与上下文管理方式、工具调用频率以及循环迭代深度紧密相关。人类专家对任务难度的主观评估与实际 token 成本仅呈弱相关,模型自身对消耗的预测相关系数最高也仅 0.39,且普遍存在系统性低估。
模型自身预测消耗的能力同样有限,相关系数最高仅0.39,且系统性低估真实用量。这意味着开发者很难在任务启动前就对账单心里有底。输入token主导成本的现实,暴露了agentic workflow里一个普遍痛点——每轮把历史对话、工具输出、代码仓库全量塞进上下文,相当于在默默为重复内容买单。
模型间效率差异同样惊人。在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。 有趣的是,人类专家主观评定的任务难度,与实际token消耗仅呈弱相关。开发者眼中“简单”的bug修复,可能因代理探索路径冗长而耗费巨量token;反之,一些看似棘手的任务却能相对高效收敛。这暴露了当前代理设计在人类直觉与计算效率间的明显脱节。
从更广视角看,这一human-AI gap短期内会放大成本控制的挑战,尤其当团队将Agent推向生产环境时,随机波动让固定预算变得难以把控。长期而言,它或将推动行业加速开发token预测工具、优化模型效率,以及设计内置预算感知机制的Agent架构。不过,当前前沿模型自我预测token消耗的相关性最高仅0.39,且存在系统性低估,数据支持这个方向,但样本量和任务覆盖仍有限。
更反直觉的是,同一任务下 token 使用表现出极强的随机性,多次运行的总消耗可能相差高达 30 倍。而且更高 token 投入并不必然带来更高准确率,准确率往往在中等工作量区间达到峰值,之后便趋于饱和甚至边际效应递减。这提醒开发者,不能单纯以 token 消耗作为性能代理指标。
论文的核心贡献在于拆解了代理经济的三大问题:token究竟花在了哪里,哪些模型更省钱,以及代理能否在任务启动前可靠预测自身消耗。表面上看,代理通过多步工具调用和上下文维护能处理复杂软件工程任务。但实证数据显示,输入token而非输出token主导了总体成本,这与传统聊天式交互形成鲜明对比。许多团队仍将代理token支出视为次要开支,可一旦进入真实部署,这种假设就容易被现实打破。
把真人一元一分红中麻将群的落地当作一场长跑,而不是短跑。