自动化能加速,但无法完全替代专业经验。
主流媒体和企业高管讨论AI时,焦点往往停留在模型参数规模、代理测试表现或就业影响预测上。Mercor的APEX-Agents基准测试了顶级模型在投资银行、咨询和法律领域的480个真实任务,结果首次成功率仅约24%,多次尝试后也难超40%。Anthropic等机构对职场任务的预测同样引发热议,但这些分析多基于模型能力,而非落地后的实际数据支撑。表面上看,失败常被归因于集成难度或业务不匹配,少有人直指数据混沌才是核心盲区。
最近,MIT Technology Review的一篇报道用South Park《underpants gnomes》 meme精准捕捉了AI当前的尴尬处境:Step 1是打造强大模型,Step 3是许诺商业转型和丰厚利润,而Step 2——如何将智能输出真正转化为决策价值——却一片空白。伦敦反AI游行中Pause AI发放的传单也呼应了这一点,上面写着“培养数字超级头脑,然后呢?”。
把AI简单叠加到现有流程上,往往不仅无效,还可能干扰原本的人工操作。制造AI最匹配设备密集型的重复流程。其缺失中间步骤是“流程重构+实时数据打通”。不改动旧工作流,就等于把先进模型扔进“被人类污染的工作流”里。试点时效果不错,一到全厂推广就卡壳,这几乎成了行业共识。值得持续跟踪,现在下结论为时尚早,但这个逻辑成立。
更直接的证据来自Mercor今年2月发布的APEX-Agents基准测试。他们让基于顶级模型的AI代理处理银行分析师、管理咨询师和公司律师的480项真实任务,这些任务通常需要从业者一两个小时完成。结果显示,即使表现最好的代理,首次尝试成功率也仅在24%左右,多次尝试后也远未达到可靠水平。AI在隔离环境中看似强大,但在需要处理模糊性、跨应用上下文和战略判断的真实场景中,大多表现不佳。
短期来看,2026-2027年hype消退可能让更多企业暂停或缩减试点。根据Wharton模型,2025年AI对生产力增长的贡献仅约0.01个百分点,整体GDP拉动有限。但少数敢于重构工作流的公司,或许能在局部看到小幅效率提升,形成一定市场分化。长期到2030年,若能补上流程再造与人机协作优化,AI有望贡献约1.5%的生产力增长;若忽略部署痛点,经济现实或接近历史趋势,泡沫风险反而上升。值得持续跟踪,现在下结论为时尚早。
行业数据清晰印证了这一判断。IDC预测显示,全球AI基础设施支出正高速增长,2025年已达数百亿美元规模,到2029年有望接近甚至超过千亿美元级别,其中加速服务器占比将超过95%。在中国及亚太地区,组织正面临从传统平台向AI适配平台的转型压力。如果云迁移仅止于搬迁而非现代化,AI就绪基础设施就难以真正建成。70%以上的企业有AI部署计划,但全公司级规模化落地率却远低于预期,这个剪刀差说明一切。
这件事远比模型参数或算力短板复杂,根源往往直指企业高层领导力在战略与执行间的断层。
零售业的AI应用更多指向个性化推荐和库存优化,直接关联营收。亚马逊的推荐引擎据称贡献了约35%的销售额,部分零售项目显示精准推荐能带来销售提升和库存积压减少20-30%。但消费者行为多变,隐私压力大,光有洞察而不联动供应链和定价调整,闭环就断掉,最终难见真金白银的利润。
Anthropic的劳动力市场影响研究进一步提供了对照维度。他们发现,经理、建筑师、媒体从业者等岗位的任务暴露度较高,而一些体力或服务类职业相对较低。但这些预测更多基于模型理论能力,而非真实工作流中的整合表现。企业现有流程高度依赖历史路径、人力隐性知识和特定工具链,简单把AI“叠加”上去,往往会带来额外认知负荷和混乱,而不是效率跃升。
最近,MIT Technology Review的一篇文章用South Park的“underpants gnomes”梗精准捕捉了AI当前的尴尬处境:Step 1是构建数字超级智能,这一步企业已经基本完成;Step 3则是实现经济转型和利润爆发,高管们反复承诺这一点;可中间的Step 2却始终空白。MIT另一份关于企业AI状态的报告进一步刺破泡沫,显示约95%的生成式AI试点项目未能产生可衡量的P&L影响,仅有5%实现了快速收入加速。
我的判断是——但这个判断可能需要随着行业演进而修正。