学习能力和执行闭环,正在成为核心竞争力。
模型间效率差异同样突出。在相同 SWE-bench 任务上,Kimi-K2 和 Claude-Sonnet-4.5 平均比 GPT-5 多消耗超过 150 万 token。这不是微小差距,对于需要频繁运行 Agent 的团队而言,选择合适模型能直接节省可观费用。论文对比八个前沿模型,清晰揭示并非所有“大模型”在 agentic coding 场景下都具备同等经济性。
这组实证数据打破了直觉:Agent看似高效解决复杂GitHub issue,背后却是高度随机的“挥霍”行为,随机性远超此前行业预估。
开发者社区反馈和最新轨迹研究都指向同一个方向:不加控制的agentic coding容易把强大工具变成隐形烧钱机器。输入主导、随机变异、模型差异共同作用下,项目预算失控的风险远高于预期。这个现象目前行业内仍有不同声音,我的判断是——控制输入侧浪费将是未来开发者效率提升的关键,但这个判断可能需要随新框架迭代而修正。
前沿模型对自身token用量的预测能力同样薄弱,相关系数最高仅0.39,且系统性低估真实成本。这意味着即使顶级模型,也难以在任务启动前给出可靠预算预估。就像租车却无法预知油耗和路线,代理场景下的成本不可控正从后台推向前台。未来,如果token预测机制无法有效突破,复杂代理的规模化落地或将主要局限于预算充裕的场景,而透明定价的转型方向,或许将成为行业不得不面对的现实议题。
然而,云端方案的成本波动性远超预期。同一任务不同运行的token消耗可相差30倍,且更高消耗并不必然带来更高准确率——准确率往往在中间成本区间达到峰值,继续投入反而边际效应递减。更关键的是,所有上下文和代码数据都需要上传云端,对涉及公司核心知识产权或敏感业务的团队而言,隐私泄露风险始终是隐忧。低频偶尔使用时还可控,高频开发场景下账单失控几乎是必然。
深挖论文数据,核心原因在于代理任务的迭代循环机制。与一次性代码聊天不同,Agentic Coding需要AI反复读取累积上下文、调用工具、观察执行结果、再重新规划下一步。这直接导致输入token被大量消耗——每次循环都必须把历史对话、代码片段、错误日志等重新注入提示词。输出token反而退居次要。论文将此称为“通信税”:代理的“思考”本质上是频繁的内部沟通,而每次沟通都要为不断膨胀的上下文买单。
更重要的是,更高的 token 投入并不必然带来更高的准确率,准确率往往在中等成本区间达到峰值,继续追加 token 后便迅速饱和。
agentic coding的“费钱”本质在于大量迭代和上下文交互。论文轨迹数据表明,同一任务的不同运行间token消耗差异可达30倍,随机性极强。更关键的是,高消耗并不必然带来高准确率——准确率往往在中级成本区间就达到峰值,继续追加token反而出现收益递减。输入token占比高企,解释了为什么许多开发者感觉“越用越贵”:每次文件读取、工具调用和历史累积都在悄然推高账单。
这些观察来自最新论文轨迹数据和开发者实际反馈,控制好输入 token 和随机性,AI Coding Agent 才能从潜在负担变成真正的高效助力。值得持续跟踪,现在下结论为时尚早。
另一个反直觉发现是准确率与token消耗并非正相关。数据表明,准确率往往在中间成本区间达到峰值,继续推高消耗后表现趋于饱和,甚至出现浪费——Agent可能在已验证路径上重复徘徊,却没有带来实质进步。这就像人类专家对任务难度的主观判断,与Agent实际计算努力之间存在明显脱节:感知棘手的bug有时只需少量token解决,而看似简单的issue却因随机路径耗费巨量资源。人类评分与真实token成本的相关性微弱,这一差距值得持续关注。
24小时二元一分跑的快群的未来发展路径,仍存在较多外部变量和不确定性因素,但从目前可观察到的信号来看,整体的大趋势和大方向已经相对清晰和明朗。