重点观察

AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?

围绕上下分红中麻将一元群、临场调整相关线索,当上下分红中麻将一元群热度上升时,快速跟进的站点往往能抢占先机。
频道更新员 2026-04-28 05:12:32 阅读 745
AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?
内容提要
围绕上下分红中麻将一元群、临场调整相关线索,当上下分红中麻将一元群热度上升时,快速跟进的站点往往能抢占先机。

当上下分红中麻将一元群热度上升时,快速跟进的站点往往能抢占先机。

开发者以为AI工具能高效省时,结果却容易变成隐形烧钱机器,尤其在SWE-bench类复杂流程中,预算失控的风险被严重低估。

行业里讨论AI Agent成本时,焦点往往落在模型API定价和输出token单价上。开发者普遍认为,只要控制生成长度或优化提示,就能有效压低开支。论坛和社区里也常见吐槽:Agent确实能处理真实GitHub issue级别的复杂编码,但单次运行费用像随机变量一样难以把控。这些认知有其合理之处,却普遍忽略了运行间巨大的stochastic variance,以及实证显示的高消耗未必带来更高准确率这一盲区。

行业里讨论AI Agent成本时,焦点通常落在模型API定价和输出token的单价上。开发者常以为只要优化提示长度或限制生成步数,就能把费用控住。论坛和社区里也反复出现类似吐槽:Agent确实能处理真实GitHub issue,但每次运行的开销像开了盲盒一样难以捉摸。这些看法有其道理,却遗漏了运行间剧烈波动的核心盲区,以及高token投入未必换来更高准确率的实证现象。

论文数据显示,agent任务的token消耗比常规代码聊天高出1000倍以上,而主导开销的并非模型生成的新代码或推理步骤,而是反复塞入历史上下文的输入token。随着交互轮次增加,OpenHands这类框架默认会将累积的代码库片段、失败尝试和工具输出全部回喂模型,上下文像滚雪球般膨胀。同一任务下,不同运行的总token差异可达30倍,凸显出执行路径的强随机性。

AI Coding Agent的token成本其实可控,关键在于从盲目跑转向智能管,让每一步token都花在刀刃上。值得持续跟踪的是,随着模型和框架迭代,这些优化空间是否会进一步扩大,现在下结论可能还为时尚早。

第三,不同模型的token效率差异显著。在相同SWE-bench任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这反映出架构、提示处理和工具集成方式的本质区别。企业选择部署哪款模型,直接决定了实际运营成本的高低。数据支持这个方向,但样本量仍有限,值得持续跟踪。

arXiv 最新论文《How Do AI Agents Spend Your Money?》对八个前沿大模型在 SWE-bench Verified 数据集上的 Agentic Coding 轨迹进行了系统分析,结果显示 Agentic 任务的 token 消耗远超普通代码推理或聊天场景,高出约 1000 倍以上。更关键的是,成本主要由输入 token 主导,而非输出。

此外,前沿模型预测自身token消耗的能力仍较薄弱。论文数据显示,预测值与实际消耗的相关性最高仅0.39,且存在系统性低估。这让开发者在启动任务前难以准确预判开支,预算控制变得充满不确定性。短期内,这可能让中小团队对大规模部署Agentic Coding保持谨慎;长期来看,它或将推动行业向更token-efficient的架构演进,例如优化上下文管理或引入专用成本预测工具。但如果缓存与压缩技术未能快速突破,使用门槛或许会显著抬高。

论文进一步揭示,同一任务的不同运行之间,总token消耗的随机性极高,差异可达30倍之多。有趣的是,高token消耗并不必然带来更高准确率;相反,准确率往往在中位成本区间达到峰值,继续增加消耗后收益迅速饱和。这意味着盲目延长迭代轮次或允许Agent“多跑几遍”,未必是提升成功率的理性选择,反而可能直接放大预算风险。

最近,一篇arXiv论文系统剖析了八个前沿大模型在SWE-bench Verified上的agentic coding轨迹,结果显示人类专家评定的任务难度与实际token消耗之间仅呈弱相关(Kendall τ约0.32)。许多被标记为“简单”的任务却消耗了远超预期的token,而部分公认“困难”的任务在某些模型上反而运行得相对高效。这个发现暴露了人类认知与AI代理实际计算努力之间的显著gap。

在当前数据环境下,“上下分红中麻将一元群”_上下分红中麻将一元群CSDN技术社区所揭示的趋势或许只是冰山一角。未来几个月,行业格局是否会迎来新一轮洗牌,仍需观察更多实证案例。

固定信息

固定链接:http://bbb.cn.www.ss7a.cn/images/6121.html

作者简介:聚合内容编辑重点推进选题方向归纳与延伸阅读整理,强调同类内容聚合与归档效率,主要负责内容归档与页面补料,保证文章具备基本的信息完整度和阅读路径,并根据当期话题做差异化补充。

互动量:评论 2 / 点赞 4167

本文标题:AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?
固定链接:http://bbb.cn.www.ss7a.cn/images/6121.html
说明:本页内容以主题整理、信息补充和相关阅读为主,适合按频道结构做连续查看。

相关内容

进入频道

AI Agent 高 token 消耗时代,固定订阅模式还能撑多久?深度经济挑战分析

最近,一篇来自arXiv的论文把AI Agent的成本问题摆到了台面上。研究针对SWE-bench Verified上的编码任务,分析了八个前沿大模型的轨迹,发现Agentic任务的token消耗远超普通代码推理或聊天场景,高达1000倍。输入token而非输出token成为主要开销来源,同一任务不同运行间消耗差异可达30倍,模型预测自身用量时相关性仅0.39,且普遍低估真实成本。这件事比表面上“...

发布时间:2026-07-01

AI编码Agent同一任务token消耗为何波动高达30倍?论文实证揭秘

最近,一篇来自arXiv的论文把AI Agent的“花钱”习惯摆上了台面。研究团队分析了八个前沿大模型在SWE-bench Verified基准上的运行轨迹,结果显示AI编码Agent在复杂编码任务中token消耗远超普通聊天或代码推理任务,高达1000倍。更让人意外的是,同一个任务多次运行,总token用量差异能达到30倍,输入token成了成本大头。这件事比表面看起来复杂得多,随机性才是背后最...

发布时间:2026-07-01

哪款大模型在 Agentic Coding 中最省 token?8 大前沿模型对比

你是不是也遇到过这种情况:用AI Agent帮忙写代码或修复Bug,任务一启动,token消耗就失控。跑完一个复杂任务,账单直接翻倍,却搞不清哪个模型更省钱。很多团队一开始只盯着准确率,结果部署后才发现,token成本成了最大隐患。选错模型,不仅开发效率打折,整个Agent项目都可能变得不划算。 最近arXiv上的一篇论文《How Do AI Agents Spend Your Money?》给...

发布时间:2026-07-01

本地 vs 云端 AI Agent:token 消耗与隐私成本权衡

很多开发者最近在用AI Agent处理编码任务时,都被一张突然飙升的token账单吓了一跳。原本以为只是偶尔调用几次,结果月消耗轻松破万,甚至几万块。云端调用方便,性能强劲,但隐私数据要上传;本地部署数据不出域,长期看省钱,却又担心模型能力跟不上或者硬件成本太高。选哪个都觉得有点亏,这正是当前不少团队面临的真实困境。 arXiv上刚刚发布的论文《How Do AI Agents Spend Yo...

发布时间:2026-07-01

代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解

最近一篇 arXiv 论文把 AI Agent 在编码任务中的 token 消耗情况摆到了台面上。研究团队分析了软件开发生命周期(SDLC)中的多代理系统执行轨迹,发现代码审查阶段平均占用了 59.4% 的 token,成为整个流程里最烧钱的环节。这远不是大家想象中“让 AI 写一段代码就完事”的场景。输入 token 而非输出 token 才是成本大头,整个 agentic coding 任务的...

发布时间:2026-07-01

Agentic Coding 任务比普通代码聊天贵1000倍?论文拆解AI代理真实成本

最近,一篇arXiv论文把开发者圈子里的一个隐性痛点摆上了台面:Agentic Coding任务的token消耗,竟然是普通代码聊天或简单推理任务的1000倍左右。这不是夸张的比喻,而是基于SWE-bench Verified基准的实测数据。论文作者系统分析了八款前沿大模型在代理编码场景下的轨迹,发现输入token才是真正的成本大头,而不是大家以为的输出生成。表面上看,AI代理能自主迭代、调试、修...

发布时间:2026-07-01