AI编码Agent同一任务token消耗为何波动高达30倍?论文实证揭秘
作者信息
作者:资讯快编员
简介:栏目观察编辑负责把热点素材、正文段落和相关入口统一整理,重点覆盖聚合正文校对与同主题段落归纳,让内容更新更适合批量文章页使用,并根据当期话题做差异化补充。
发布时间:2026-04-28 05:12:21
文章热度
排名代发飞机【seo1268】好友聊天,输入“怎么进一元一分跑的快群”咨询客服,娱乐游戏作为民间很受欢迎的纸牌玩法,乐趣集中在快节奏的刺激感、心理博弈的张力,这两种玩法的规则几乎一学就会,不用记复杂的牌型搭配,就算是新手也能快速上手,梦想是前行的灯塔,哪怕渺小,也能指引方向。不必因梦想遥远就轻言放弃,逐梦的路上,本就布满挑战。拆分目标,步步前行,哪怕每天只前进一小步,也是在靠近理想。不惧旁人的质疑,不畏前路的漫长,坚守初心,全力以赴。只要心中有梦,眼里有光,脚下有路,终能跨越山海,奔赴心之所向的远方。的优化逻辑,与行业观察者的视角深度融合。
论文数据揭示了软件开发生命周期各阶段token分布的显著不均衡。代码审查不仅占比最高,其输入token比例也达到51.4%,远高于输出24.7%,因为Agent需要反复注入已有代码、上下文和历史修改进行分析。相比之下,编码阶段输出token占比更高,符合生成新内容的直观逻辑。这种阶段性差异说明,单纯追求更强模型未必能线性降低成本。
不是简单换更贵模型,而是让每一步 token 都花在刀刃上。这套方法论的核心在于从“盲目跑”转向“智能管”。实际落地时,压缩不能太激进以免丢失关键信息,路由规则需要针对具体任务调优,监控工具要实时跟进 token breakdown。方向是对的,但现实更复杂,值得每个开发者从小任务开始测试。
agentic coding的token使用模式呈现出极强的随机性。同一任务在不同运行中,消耗差异可达30倍左右,而高token投入并不必然带来更高准确率——论文数据显示准确率往往在中级成本区间就已接近峰值,继续追加资源反而出现收益递减。模型间效率差距同样显著,某些前沿模型在相同子任务上比基准模型多耗百万级token,即便任务本身难度不高。这种现象说明,开发者凭直觉判断“越强模型越省钱”的认知,可能需要调整。
不少开发者习惯按传统聊天模型的思维来算账。输出token单价通常比输入高,所以大家自然把注意力放在缩短回复上,精炼最终答案,限制思考步骤。以为这样就能把成本压下来。但实际情况却往往相反。尤其是当Agent进入多轮迭代、工具调用、上下文累积的Agentic流程时,输入端的消耗像雪球一样滚大。账单拉出来一看,输入token占比远超预期,输出反而成了小头。
最近,一篇arXiv论文把AI Coding Agent在复杂软件工程任务中的token消耗轨迹拉到聚光灯下。研究团队借助OpenHands框架,在SWE-bench Verified数据集上追踪了八大前沿LLM的完整执行路径,首次系统拆解了“钱到底花哪了”这个现实问题。Agent任务的token消耗远超普通代码推理或聊天场景,输入部分成为主导成本,这远比简单看解决率复杂。
arXiv上最新论文《How Do AI Agents Spend Your Money?》针对agentic coding任务进行了系统分析,考察了八个前沿LLM在SWE-bench Verified上的token消耗轨迹。研究发现,agentic任务消耗token比普通代码推理或聊天多出约1000倍,且主要是输入token主导成本,而非输出。
你部署AI Agent时,是不是总盯着输出token定价,以为控制生成长度就能省钱?结果账单拉出来一看,输入token却占了大头——这正是大多数团队正在踩的坑。
此外,前沿模型预测自身token消耗的能力依然薄弱。论文显示,预测值与实际消耗的相关性最高仅0.39,且存在系统性低估。这意味着开发者在启动Agentic Coding任务前,很难准确预判预算。短期内,这会让团队尤其是中小规模开发者在部署时面临不可控的成本风险;长期看,它或将推动行业向更token-efficient的代理架构演进,包括更好的上下文缓存、压缩机制或专用成本预测工具。
最近arXiv上关于agentic coding的实证研究显示,AI Coding Agent在处理SWE-bench类任务时,token消耗往往比普通代码聊天或单次推理高出约1000倍。主导开销的并非生成代码的输出token,而是反复读取上下文的输入token。即使启用缓存,这种“通信税”依然显著。开发者以为多加几次迭代就能提升准确率,实际却经常陷入边际收益递减的循环。
arXiv 最新论文《How Do AI Agents Spend Your Money?》系统分析了八个前沿 LLM 在 SWE-bench Verified 上的轨迹,发现 agentic coding 任务的 token 消耗是普通代码聊天或推理任务的 1000 倍左右。主导成本的不是输出 token,而是输入上下文膨胀。同一任务不同运行间消耗可差 30 倍,高消耗并不等于高准确率,准确率往往在中间成本水平就达到峰值。
我的长期观察是,那些在日常执行中愿意持续对细节保持较高敏感度、并养成定期复盘习惯的团队和个人,通常能够在半年到一年左右的时间窗口内,看到与其他参与者较为明显的能力分层和结果差异。
固定链接:http://bbb.cn.www.ss7a.cn/6111.html
说明:本文为当前主题的频道整理页,正文与相关阅读会持续围绕同类信息展开。