见好就收如果只是零散信息,而缺少清晰的逻辑链条,很难获得长期流量支持。
从部署角度看,这一弱相关性对agent deployment的成本控制提出了现实挑战。短期内,若团队仍依赖人类专家难度标签做预算,容易出现严重超支或资源低估,直接拖累项目ROI。长期而言,它会推动行业开发更精准的token预测工具、优化模型效率,或设计内置预算感知的Agent架构。目前前沿模型自我预测token消耗的相关性最高仅0.39,且系统性低估真实开销。
这一点目前行业内仍有不同声音。数据清晰指向输入token主导的成本结构,但样本量和具体场景的覆盖仍有局限。值得持续跟踪的是,未来如果缓存和上下文管理取得实质进展,Agentic Coding的经济学可行性是否会显著改善,否则“AI更聪明”的叙事恐怕会与开发者账单形成更尖锐的矛盾。
深入到五大发现,第一点最为刺眼:代理任务的token消耗比普通代码推理或聊天高出约1000倍,且主要由反复读取上下文和工具交互驱动。这不是简单的线性增长,而是交互循环带来的累积效应。企业若直接将代理嵌入编码流程,预算规划很容易失准。方向是对的,但现实更复杂。
最近arXiv上发布的论文《How Do AI Agents Spend Your Money?》对agentic coding任务的token消耗进行了系统性分析,基于八个前沿模型在SWE-bench Verified基准上的执行轨迹数据。研究发现,AI Agent在复杂编码场景下的token用量远超普通代码推理或聊天任务,差距可达约1000倍,且输入token而非输出token成为主导成本驱动因素。
论文进一步指出,token使用具有高度随机性。同一个任务多次运行的总消耗可能相差高达30倍,而且更高的token消耗并不一定带来更高的准确率,准确率往往在中等成本时达到峰值,继续增加投入反而边际收益递减。这意味着单纯追求“多思考”在预算上未必划算。
防控token爆炸的核心不在于完全取消反思,而是主动设限让Agent在预算内聪明停手。提前在框架wrapper层加入硬性token或成本上限检查,每轮调用前统计累计输入,一旦接近阈值就终止循环,这在社区实践中能将单次消耗平均压低60%以上。结合tiktoken等工具实时计数,并设置合理的单任务上限,如30-50万token,能有效避免失控迭代。
模型间的效率差距同样惊人。在相同任务集上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这不是孤例,而是系统性差异。如果开发者仍按统一的人类难度标签选模和预算,很容易要么严重超支,要么错失高效模型的真实潜力。70%和7%——类似五年前企业上云的部署率与规模化率剪刀差,在agent时代再次出现,只是这次窗口可能更短。
更反直觉的是,token使用呈现高度随机性。同一任务多次运行,总消耗可能相差高达30倍,这使得单次实验结果充满不确定性。同时,准确率往往在中等token成本时达到峰值,继续增加投入后便趋于饱和,甚至没有明显提升。这一点挑战了“多花钱多办事”的直觉判断。开发者在选型时,不能仅看基准准确率,还需关注真实成本曲线。数据支持这个方向,但样本量和具体场景仍需更多验证。
更有意思的是,高token消耗与准确率之间并不存在线性正相关。论文轨迹数据显示,准确率通常在中等成本区间达到峰值,继续增加迭代次数后往往出现饱和甚至轻微下滑。开发者普遍以为迭代越多Agent就越“聪明”,但现实中大量高成本循环只是在重复喂入已知历史,制造无谓开销。这个反直觉的事实,让许多团队在预算压力下开始重新审视自纠正机制的实际价值。
模型间的 token 效率差异同样显著。在相同 SWE-bench Verified 任务集上,Kimi-K2 和 Claude-Sonnet-4.5 平均比 GPT-5 多消耗超过 150 万 token。这一差距即使限定在所有模型都能成功解决的简单子集上依然存在,说明它更多源于模型自身的行为模式,而非任务内在难度。开发者如果仅以解决率作为选型依据,很容易忽略背后的经济账本。
广东一元1分红中麻将群的趋势值得跟踪,但不宜盲目跟进。