增强抗干扰的搜索行为呈现出明显的结构化需求。
深层观察显示,agentic任务的高耗主要源于反复读取上下文、工具调用和迭代修正形成的“通信税”。高token用量并不必然对应更高准确率——研究指出准确率常在中间成本区间达到峰值,继续投入反而出现饱和。模型间效率差距显著,而人类专家对任务难度的主观判断与实际token成本仅呈弱相关。这说明凭经验预估的复杂度,与Agent真实计算开销之间存在明显鸿沟。
GPT-5在相同Agentic Coding任务中展现出显著的token效率优势。论文指出,它平均比Kimi K2和Claude Sonnet 4.5少消耗150万以上的token,这一差距在所有模型共同解决的子集上依然稳健存在。GPT-5的上下文处理和迭代策略似乎更注重精炼,避免了不必要的冗长循环,从而在预算敏感场景下提供了实打实的经济性。但有意思的是,在极度复杂的多文件重构任务中,其准确率有时会显露局限,团队仍需结合具体需求权衡。
前沿模型普遍无法准确预测自身token使用,预测相关性最高仅0.39,且系统性低估真实成本。这让预算规划变得困难,开发者在启动Agent前很难获得可靠的成本预期。结合输入token主导的特性,如何在模型选择和提示工程上进一步优化Agent轨迹,目前行业内仍有不同声音,值得开发者在实际项目中持续跟踪验证。
除了模型间效率差异,研究还发现人为评定的任务难度与实际token消耗仅呈弱相关。这说明人类直觉判断的“复杂Bug”,在Agent执行时所消耗的计算努力可能完全不同。有些看似简单的修复,却会意外烧掉巨量token,而一些被认为棘手的任务反而消耗相对可控。这种认知鸿沟,进一步放大了Agentic Coding在成本控制上的不确定性。
行业里讨论AI Agent成本时,目光常落在模型单价和输出token上。很多人认为只要控制生成长度,就能有效省钱。论坛和开发者社区也反复提到,Agent虽能处理真实GitHub issue级复杂编码,但单次运行费用难以预估,预算像失控一样波动。这些观察有道理,却忽略了运行间巨大的随机波动,以及“多花token未必带来更好准确率”的实证盲区。
这远超初始设计(2.4%)和编码(8.6%)等前期阶段,输入token整体占比达53.9%,远高于输出token。表面上AI Agent能自主完成SWE-bench任务显得高效,但实际成本结构比想象中复杂得多。
模型间效率差异同样突出。在相同 SWE-bench 任务上,Kimi-K2 和 Claude-Sonnet-4.5 平均比 GPT-5 多消耗超过 150 万 token。这不是微小差距,对于需要频繁运行 Agent 的团队而言,选择合适模型能直接节省可观费用。论文对比八个前沿模型,清晰揭示并非所有“大模型”在 agentic coding 场景下都具备同等经济性。
论文进一步指出,token使用具有高度随机性。同一个任务,多次运行的总token消耗可能相差高达30倍。而且更高的token消耗并不一定带来更高的准确率,准确率往往在中等成本时达到峰值,继续烧钱反而边际收益递减。这意味着单纯追求“多思考”不一定划算。
论文重点拆解了agentic tasks的内在机制。这类任务依赖多步工具调用、上下文持续累积,与简单问答截然不同。在SWE-bench这类真实软件工程场景中,Agent会反复读取代码、调用工具、生成补丁并验证测试,每一步都会将先前上下文带入下一轮,导致输入token迅速膨胀。即使引入缓存机制,累积效应依然显著。输出token虽有影响,但整体成本主要由输入驱动,这与传统推理任务的成本结构形成鲜明对比。
前沿模型普遍无法准确预测自身 token 使用,预测相关性最高仅为 0.39,且系统性低估真实成本。 这意味着开发者在任务启动前难以可靠规划支出,Agent 给出的“预计消耗”往往偏乐观。综合来看,在 Agentic Coding 中选择模型时,不能只盯准确率指标,更需把 token 效率作为核心决策维度。
数据支持这个方向,但样本量和时间跨度仍有提升空间。