AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘：钱到底花哪了？

围绕想玩一元一分跑的快群、忍不住分享相关线索，SEO资讯站持续关注的算法透明度问题，短期内难见根本改善。

核心摘要

围绕想玩一元一分跑的快群、忍不住分享相关线索，SEO资讯站持续关注的算法透明度问题，短期内难见根本改善。

作者信息

作者：内容编排组

简介：负责资讯观察与内容整理，强调主题清楚、段落连贯和推荐内容相关。

发布时间：2026-04-28 05:12:32

文章热度

阅读 789 点赞 4637 评论 1

SEO资讯站持续关注的算法透明度问题，短期内难见根本改善。

arXiv论文《How Do AI Agents Spend Your Money?》对8个前沿LLM的Agent轨迹进行了系统跟踪，发现输入token而非输出token主导了整体成本。在Agent反复读取上下文、调用工具和迭代调试的过程中，输入消耗往往占到70%以上。这一点与传统单次推理任务形成鲜明对比，也解释了为什么许多开发者在运行复杂代码库修复时，会突然看到账单成倍增长。

模型效率的巨大分化进一步凸显了选择难题。在相同任务上，Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这不仅仅是架构差异的体现，更是提示处理、工具集成方式对整体经济性的直接映射。企业部署时若不进行针对性审计，预算超支风险将显著放大。70%和7%式的剪刀差在这里虽未直接出现，但类似鸿沟已足够说明问题。

人类专家对任务难度的主观评定，与代理实际消耗的 token 量仅呈现弱相关。这一点尤为值得注意：我们感知为高难度的编码问题，代理有时能以相对节制的资源解决；而看似 routine 的修复，却可能让代理陷入冗长循环，推高开销。人机在复杂度认知上的差距，成为代理经济中一个难以回避的摩擦点。

我的观察是，这种迭代机制的本意是提升准确率，但实际中往往让单次任务从几千token跃升至数十万甚至百万级，账单压力直接拖累项目进度。

另一个值得注意的发现是，人类专家对任务难度的主观评判，与实际token消耗只有弱相关。开发者眼中简单的bug修复，Agent可能因反复试错而烧掉大量输入token；反之，一些看似复杂的模块，模型有时能快速收敛。这暴露了感知复杂度与计算实际开销之间的脱节，给预算预估增添了不确定性。数据支持这个观察，但样本量有限，值得持续跟踪。

深究原因，Agentic Coding的迭代循环是主要推手。与一次性代码聊天不同，代理需要反复读取历史上下文、观察工具结果、再规划下一步。这导致大量输入token被反复注入提示词，而输出token占比相对有限。论文形象地将此称为“通信税”：代理的“思考”过程本质上是频繁的内部沟通，每次沟通都要为累积的上下文买单。简单类比，就像团队开会时每次发言前都要重述全部会议记录，而不是直接接续上文。

模型之间的效率差异也非常显著。在相同任务上，Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。人类专家对任务难度的主观判断，与实际token成本只有弱相关。这说明凭经验预估Agent成本常常存在明显偏差。

论文进一步揭示了token使用的随机性。同一个任务，多次运行的总消耗可能相差高达30倍。而且更高的token消耗并不一定带来更高准确率，准确率往往在中等成本区间达到峰值，继续增加投入后边际收益迅速递减。这一点目前行业内仍有不同声音，但数据支持的方向很明确：单纯追求“多思考”未必划算。

深层来看，agentic 任务的成本结构呈现出独特的非线性特征。输入 token 驱动的“通信税”和多轮迭代循环是主要推手，高 token 消耗并不必然对应高准确率——准确率往往在中间成本区间达到峰值，继续追加投入后便趋于饱和。不同模型的 token 效率差距显著，而人类专家对任务难度的感知与实际消耗仅呈弱相关。这就像开车时以为油耗稳定，结果每次路况变化都带来意外差异。

对比来看，token成本维度上云端按量付费易失控，本地则接近零开销；隐私安全上云端数据上云存在泄露风险，本地数据主权得到保障；延迟方面本地内网响应更快，而云端受网络波动影响。论文还指出，人为评定的任务难度与实际token消耗仅呈弱相关，这暴露了我们对复杂度直觉与Agent真实开销之间的鸿沟。

短期内各项核心业务数据指标出现的正常范围内的波动、阶段性的阶段性起伏、以及外部宏观政策环境、监管导向或技术突破带来的突发性变化，基本上都可以看作是这个快速发展的行业在当前阶段必然会伴随出现的正常现象和内生特征之一。真正能够在中长期维度上形成显著区隔效应、持续竞争优势和组织能力壁垒的，仍然在于相关团队能否在此复杂动态环境中，逐步建立、不断完善并严格、持续执行一套真正适合自身业务模式特点、组织文化基因、当前成熟度水平以及中长期战略目标的、长期稳定、数据驱动、可迭代优化的综合数据跟踪监测体系、结构化复盘反思机制、决策校准与风险应对流程以及人才持续培养与激励闭环。

本文导航

若需要继续查看同主题内容，可返回首页、栏目页，或直接进入 AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘：钱到底花哪了？、 BPS指标如何在流式持续学习中提前量化时间任务化不稳定性。

同栏阅读： AI云市场洗牌：OpenAI微软协议调整后，Azure收入面临什么变化 / Ero Copper (ERO) 投资风险有哪些？2026年需警惕什么 / 白宫记者晚宴枪击后，特勤局快速护送特朗普的细节与安全评估

本文标题：AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘：钱到底花哪了？
固定链接：http://bbb.cn.www.ss7a.cn/6121.html
说明：本文为当前主题的频道整理页，正文与相关阅读会持续围绕同类信息展开。

频道速览

站点：bbb.cn.www.ss7a.cn

栏目：想玩一元一分跑的快群 / 忍不住分享

地址：http://bbb.cn.www.ss7a.cn/6121.html