从 arXiv 论文看 AI 代理经济的未来:token 预测与透明定价
- 发布时间:2026-04-28 05:13:05
- 来源:附近1块1分跑的快群资讯中心
- 栏目:新闻资讯
框架梳理的演进速度,让部分早期文档和教程迅速过时。这也倒逼从业者养成持续学习的习惯。
论文重点剖析了agentic tasks的独特结构。这类任务需要多轮工具调用、代码阅读、补丁生成和测试验证,每一步都会把先前上下文累积进下一轮prompt,导致输入token迅速膨胀。即使启用缓存,上下文管理仍难以完全避免重复开销。输出token虽不可忽视,但整体成本主要由输入驱动。这种“雪球效应”在SWE-bench这类真实仓库级任务中表现尤为明显,简单聊天任务的token规模完全无法与之相比。
云端AI Agent的最大优势在于性能和易用性。以GPT-5、Claude-Sonnet系列为代表的前沿模型,在复杂编码场景下准确率更高,无需自己搭硬件,直接通过API就能上手。开发者可以快速构建多步Agent流程,处理SWE-bench这类真实软件工程问题时往往能取得更好结果。但论文也显示,不同模型间token效率差异明显,有些模型在相同任务上比GPT-5多消耗超过150万token。
实际执行过程中,Agent并非一次性完成任务,而是需要反复读取历史对话、工具返回结果、代码仓库片段以及先前失败路径。这些海量信息全部作为输入喂给模型,一轮轮循环下来,输入token迅速占据总消耗的绝大部分。传统聊天任务中输入输出比例相对均衡,而在agentic coding里,这种动态上下文堆积让输入成本成为真正的黑洞。
前沿模型普遍无法准确预测自身 token 使用,预测相关性最高仅为 0.39,且系统性低估真实成本。 这意味着开发者在任务启动前难以可靠规划支出,Agent 给出的“预计消耗”往往偏乐观。综合来看,在 Agentic Coding 中选择模型时,不能只盯准确率指标,更需把 token 效率作为核心决策维度。
许多开发者在实际部署AI编码Agent时,原本以为一个简单的GitHub issue修复任务只需几千token就能搞定,结果自纠正循环一启动,token消耗就迅速失控。基于OpenHands等框架在SWE-bench任务上的运行轨迹显示,每一轮Reflexion式的反思都会将完整的历史轨迹、工具输出和先前推理重新注入提示,导致输入token像滚雪球般累积。
当然,优化不是一劳永逸。Agent架构仍在快速迭代,未来上下文压缩技术和原生长上下文支持可能进一步改变成本结构。但在当前阶段,把注意力从“输出溢价”转向“输入主导”,已是大多数团队能立刻调整预算逻辑、避免项目超支的务实一步。值得持续跟踪的是,随着Agent规模化部署,这一输入主导的经济学规律会如何影响整个LLM生态的定价模型。
不同模型的token效率差距显著。在相同任务集上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这不是小差异,尤其在批量部署或生产环境里,成本会迅速放大。GPT-5展现出较好的经济性,而其他模型虽在某些能力上突出,“油耗”却更高。选择模型时,基准准确率之外,token效率已成为必须纳入的维度。
另一个值得注意的现象是,同任务不同运行间的token用量波动可高达30倍,且高消耗并不必然对应更高准确率。准确率常常在中段成本水平就达到饱和,继续追加资源反而收益边际递减。这个逻辑成立,却也提醒从业者:单纯追求更强模型未必是优化路径,效率差异远比参数规模更关键。但现实更复杂,模型间表现仍受提示设计和框架影响。
模型间的token效率差异同样不容忽视。在相同SWE-bench任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗150万以上token。这种差距即使在所有模型都能成功解决的简单子集上依然存在,说明它更多源于模型行为而非任务难度本身。人类专家对任务难度的主观判断与实际token成本仅呈弱相关,这意味着凭经验估算开支很容易出错。
想象开车时每前进一小步都要把整部车的行驶历史重新塞进导航系统,只为决定下一步方向——这就是Agent编码的典型成本逻辑。
框架梳理的落地,更多考验企业的执行力。
固定链接:http://bbb.cn.www.ss7a.cn/images/6191.html
说明:本页为频道内容整理与信息归档页面,便于围绕当前主题做连续查阅与延伸阅读。