快评栏目
今日观察员 2026-04-28 05:12:11 阅读 507

Agentic Coding 任务比普通代码聊天贵1000倍?论文拆解AI代理真实成本

围绕最新1元1分红中麻将群、防被误导思路相关线索,不同站点规模、不同商业模式,需要匹配不同的打法。
Agentic Coding 任务比普通代码聊天贵1000倍?论文拆解AI代理真实成本

不同站点规模、不同商业模式,需要匹配不同的打法。

主流的定价误区在于过度关注“输出token溢价”。很多人以为输出单价高就是主要开销来源,于是在提示词里反复强调“保持简洁”“只输出最终结果”。但在Agentic场景里,模型每一步都需要把之前的上下文、工具输出、历史轨迹全部塞回输入窗口。上下文不断累积,输入token就成了真正烧钱的那个部分。输出token溢价听起来吓人,但Agent真正花掉你钱的,往往是那些默默累积的输入上下文。

大多数开发者目前聚焦于代理在SWE-bench等基准上的亮眼表现。顶级系统已能在软件工程任务中展现较强自主性,主流观点认为引入Agentic Coding就能减少人力投入,让AI像资深工程师一样处理真实项目。这一点确实有数据支撑——代理通过多轮工具调用和上下文迭代,超越了一次性问答的局限。然而,很少有人注意到伴随而来的token开销激增,以及这种开销的极高随机性。

arXiv最新论文《How Do AI Agents Spend Your Money?》针对agentic coding任务做了系统分析,考察八个前沿LLM在SWE-bench Verified上的token消耗轨迹。结果显示,agentic任务比普通代码推理或聊天消耗约1000倍token,且主要由输入token主导——Agent在规划、迭代和工具调用中反复读取上下文所致。

最近,一篇arXiv论文对AI编码Agent在SWE-bench Verified上的token消耗轨迹进行了系统拆解。研究覆盖八个前沿大模型,发现agentic coding任务的token用量远超普通代码聊天或单步推理,高达1000倍。更惊人的是,同一任务多次运行的总token差异可达30倍,输入token而非输出成为成本主导。这件事比开发者直观感受复杂得多,随机性才是核心变量。

不少开发者仍沿用传统聊天模型的思维算账。输出token单价通常更高,大家自然把精力放在精炼最终答案、限制思考步骤上,以为这样就能把成本压下来。实际情况却往往相反。尤其是Agent进入多轮迭代、工具调用和上下文累积的Agentic流程时,输入端的消耗像雪球一样越滚越大。账单拆开后,输入token占比远超预期,输出反而成了次要部分。

最近一篇arXiv论文《Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering》分析了ChatDev框架下30个软件开发任务的执行轨迹,结果显示代码审查阶段平均消耗了59.4%的token,成为整个agentic coding流程中最主要的成本中心。这远超初始设计(2.4%)和编码(8.6%)等前期阶段。

好消息在于,成本控制并非无从下手。模型路由策略被证明是性价比突出的切入点:将复杂规划和架构设计交给前沿强模型,而把代码执行、简单验证等子任务分流到更高效廉价的模型(如 Kimi 系列或小型开源变体)。在 LangGraph 等框架中设置基于复杂度或上下文长度的路由规则后,整体 token 消耗可下降 30-50%,同时保持任务完成质量基本稳定。

第四,人类专家评定的任务难度与代理实际token成本仅呈弱相关。这暴露了人机认知的根本脱节:我们认为棘手的问题,代理有时能以较低开销快速解决;而看似常规的修复,却可能让代理陷入长循环,消耗大量资源。计算努力与感知复杂度的错位,成为代理规模化的一大障碍。但现实更复杂。

这些现象解释了为什么许多团队在实际部署AI编码Agent时会突然面临预算失控。Reflexion等自纠正循环让输入token二次方级增长,如果不主动干预,小型项目尚可勉强承受,但在生产环境,这种不可预测的消耗很容易拖垮整个开发预算,甚至迫使团队放弃agentic方案。我的判断是——但这个判断可能需要随更多实测数据修正。

前沿模型普遍难以准确预测自身token使用,预测相关性最高仅0.39,且系统性低估真实成本。这意味着开发者在项目规划阶段很难可靠地估算预算,Agent运行前给出的“预计消耗”往往不够靠谱。综合来看,在Agentic Coding领域选择token高效模型,不仅关乎单次任务表现,更关系到整个项目的长期可持续性,值得开发者持续跟踪最新实测数据。

最新1元1分红中麻将群的规模化,仍面临多重现实约束。

继续查看
对当前主题与 防被误导思路 相关内容还可继续查看 新闻资讯频道Agentic Coding 任务比普通代码聊天贵1000倍?论文拆解AI代理真实成本Erdős问题被AI接连解决的趋势与未来预测 以及下方相关文章列表。

作者简介

内容运营编辑重点推进相关内容串联与同主题段落归纳,强调同类内容聚合与归档效率,主要负责内容归档与页面补料,保证文章具备基本的信息完整度和阅读路径,并根据当期话题做差异化补充。

互动数据

点赞 1919 · 评论 2

固定链接:http://bbb.cn.www.ss7a.cn/images/6071.html

本文标题:Agentic Coding 任务比普通代码聊天贵1000倍?论文拆解AI代理真实成本
固定链接:http://bbb.cn.www.ss7a.cn/images/6071.html
说明:本页以频道方式对当前主题进行整理,并结合正文与相关文章提供连续阅读入口。

相关文章

查看更多

AI编码Agent的“通信税”:输入token如何主导你的账单

最近一篇arXiv论文把AI编码Agent的真实成本摆到了台面上。研究团队分析了八个前沿大模型在SWE-bench Verified任务上的运行轨迹,结果显示,Agentic任务的token消耗是普通代码推理或代码聊天的1000倍左右。更关键的是,主导账单的不是模型输出的新代码,而是不断累积的输入token。 这件事比表面“AI帮你写代码省钱”复杂得多,账单背后的隐形成本正悄然吞噬预算。 很多...

发布时间:2026-07-01

代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解

最近一篇 arXiv 论文把 AI Agent 在编码任务中的 token 消耗情况摆到了台面上。研究团队分析了软件开发生命周期(SDLC)中的多代理系统执行轨迹,发现代码审查阶段平均占用了 59.4% 的 token,成为整个流程里最烧钱的环节。这远不是大家想象中“让 AI 写一段代码就完事”的场景。输入 token 而非输出 token 才是成本大头,整个 agentic coding 任务的...

发布时间:2026-07-01

输出 token 溢价 vs 输入主导:AI Agent 定价模型的误区

你部署AI Agent时,是不是总盯着输出token定价,以为控制生成长度就能省钱?结果账单爆炸,却发现输入token占了大头——这正是大多数团队正在踩的坑。 不少开发者习惯按传统聊天模型的思维来算账。输出token单价通常比输入高,所以大家自然把注意力放在缩短回复上,精炼最终答案,限制思考步骤。以为这样就能把成本压下来。实际情况却往往相反。尤其是当Agent进入多轮迭代、工具调用、上下文累积的...

发布时间:2026-07-01

AI Agent 编码任务为何疯狂烧钱?输入 Token 主导成本的 arXiv 论文解析

最近,一篇 arXiv 论文把 AI Agent 在编码场景下的真实成本问题摆到了台面上。论文标题是“How Do AI Agents Spend Your Money?”,研究者系统分析了前沿大模型在 SWE-bench Verified 任务上的执行轨迹。结果显示,agentic coding 任务的 token 消耗远超想象,输入 token 成了最大的成本黑洞。这件事比很多人以为的“AI ...

发布时间:2026-07-01

AI Agent任务复杂度与token消耗的弱相关性:人类直觉为何失效

最近,一篇来自arXiv的论文把AI Agent成本控制的老问题摆上了台面。研究团队系统分析了八个前沿大模型在SWE-bench Verified基准上的agentic coding轨迹,结果显示:人类专家打分的任务复杂度,与AI Agent实际消耗的token数量之间,只有很弱的相关性。这件事听起来简单,却直接戳破了很多开发者长期以来的直觉假设。 AI Agent token消耗这个话题,过去...

发布时间:2026-07-01

如何优化 AI Coding Agent 的 token 消耗?实用成本控制策略

你是不是也遇到过这样的情况:用 AI Coding Agent 跑一个 SWE-bench 任务,本以为几块钱就能搞定,结果账单跳出来,上百万 token 消耗,成本轻松破百元。任务越复杂,token 用量就越不可控,跑几次下来,小团队的预算直接心疼。 很多开发者一开始对 AI Agent 抱有期待,觉得它能自动规划、执行、修复代码,效率翻倍。可现实是,agentic workflow 一旦跑起...

发布时间:2026-07-01