在选定的细分赛道里做到足够深和足够准,往往比追求大而全的布局更有长期竞争潜力。
最近arXiv上的一篇论文《How Do AI Agents Spend Your Money?》把这个痛点说得很清楚。他们用OpenHands agent在SWE-bench Verified任务上系统分析,发现agentic coding任务的token消耗是普通代码聊天或推理任务的1000倍左右。而且,主导成本的不是输出token,而是输入上下文。同一任务不同运行之间,token用量差异能达到30倍。
本地开源Agent则提供了另一种成本结构。通过Ollama等工具部署,token消耗接近零,主要支出转为电费和硬件折旧。数据完全留在本地网络,隐私得到实质保障,内网响应延迟也更低,适合需要持续高频运行的编码工作流。行业实测显示,一些常规任务迁移到本地后,月电费可控制在百元级别,与云端数万消耗形成鲜明对比。
当然,优化不是一劳永逸。Agent架构仍在快速迭代,未来上下文压缩技术和原生长上下文支持可能进一步改变成本结构。但在当前阶段,把注意力从“输出溢价”转向“输入主导”,已是大多数团队能立刻调整预算逻辑、避免项目超支的务实一步。值得持续跟踪的是,随着Agent规模化部署,这一输入主导的经济学规律会如何影响整个LLM生态的定价模型。
上下文压缩与流程隔离则直击输入膨胀的核心。提前用小型模型对检索文档或工具输出做预压缩,只保留核心事实;设置硬性token上限,并要求模型输出简洁指令而非冗长解释;把复杂任务拆成子代理,每个只持有必要上下文,由orchestrator交换最小信息。LangChain的压缩模块在这类场景中应用广泛,组合使用后,单个任务token总量从百万级降到十分之一的情况并不罕见,同时注意力更集中,准确率有时反而略有提升。
当然,GPT-5 并非在所有维度都领先。在某些需要极致深度推理的复杂场景下,它的准确率可能存在一定局限,团队仍需根据具体任务特性进行权衡。但对于预算敏感或追求稳定部署的开发者而言,这类 token 高效模型提供了更务实的平衡点。省 token,本质上就是在控制真实开发成本,而非简单牺牲性能。
防控的关键在于认识到高token不等于高准确率这一反直觉事实。单纯依赖更多迭代往往是在重复喂历史给自己烧钱,而非真正提升智能。arXiv分析显示,agentic任务中输入token累积导致的二次方级增长,正是许多预算超支案例的共同病灶。数据支持这个方向,但样本量有限,行业内对此仍有不同声音。我的判断是,主动设限比被动买单更现实,但这个判断可能需要随新框架迭代而修正。
除了模型间效率差异,研究还发现人为评定的任务难度与实际token消耗仅呈弱相关。这说明人类直觉判断的“复杂Bug”,在Agent执行时所消耗的计算努力可能完全不同。有些看似简单的修复,却会意外烧掉巨量token,而一些被认为棘手的任务反而消耗相对可控。这种认知鸿沟,进一步放大了Agentic Coding在成本控制上的不确定性。
模型之间的效率差异也非常显著。在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。人类专家对任务难度的主观判断,与实际token成本只有弱相关。这说明凭经验预估Agent成本常常存在明显偏差。
GPT-5在相同Agentic Coding任务中展现出显著的token效率优势。论文指出,它平均比Kimi K2和Claude Sonnet 4.5少消耗150万以上的token,这一差距在所有模型共同解决的子集上依然稳健存在。GPT-5的上下文处理和迭代策略似乎更注重精炼,避免了不必要的冗长循环,从而在预算敏感场景下提供了实打实的经济性。但有意思的是,在极度复杂的多文件重构任务中,其准确率有时会显露局限,团队仍需结合具体需求权衡。
同一任务下,不同运行的token消耗差异可达30倍,这种随机性远超预期。更反直觉的是,高token消耗并不必然对应高准确率,准确率往往在中间成本区间达到峰值,继续堆token后边际效应迅速递减。Agent的表现就像一个偶尔绕远路的司机,多走几圈未必更快抵达,还白白增加了油耗。
“正规1元1分跑的快群”_正规1元1分跑的快群36氪创投论坛的观点,经得起后续实践与数据的进一步检验。