这也是当前很多高排名页面共同的成功路径。
短期来看,这种Phase 2缺失将让更多企业面临ROI失望。项目上线后使用率或许不低,但业务增量有限,预算审核时便易被砍掉,甚至出现“AI疲劳”——表面配合,私下视为又一阵风。长期分化会愈发明显:那些补齐执行计划的企业,通过透明协调机制和工作流重新设计,能逐步实现从数据收集到真实价值的跨越,获得竞争优势;而继续停留在hype阶段的公司,利润将永远停留在空谈的Step 3。
深层来看,被忽略的“缺失一步”正是人力技能升级与组织文化、流程的变革。这一步,才是连接hype与实际利润的关键桥梁。Mercor最近的APEX-Agents基准测试很有代表性,他们用前沿模型测试了480个来自投资银行、管理咨询和企业律师的真实复杂任务。这些任务通常需要专业人士一到两个小时完成,结果即使表现最好的模型,Pass@1成功率也仅在24%左右,大多无法达到初级专业人员的水平。
但这些乐观叙事忽略了职场现实的严峻测试。Mercor团队2月发布的APEX-Agents基准,将顶级模型驱动的AI代理置于480项真实职场任务中,这些任务覆盖投资银行分析师、管理咨询师和公司律师的日常工作。结果显示,即使最佳模型首次尝试成功率也仅约24%,多数任务难以独立完成。单纯将AI塞入现有流程,不仅难以提效,反而常因工作流重构的巨大阻力而增加混乱。
零售AI最适合线上线下融合的消费场景。其缺失中间步骤是“从数据洞察到闭环行动”。如果只停留在推荐层面,而不去调整采购、定价和物流,整个链条就会断掉。补好这一步,AI才能从辅助工具转为营收驱动器。数据支持这个方向,但样本量有限,实际效果仍需更多跨场景验证。
深层问题在于“缺失步骤”的本质。单纯将AI工具嵌入现有流程,往往无法释放预期价值,甚至会增加认知负荷。因为工作流不是实验室里的干净环境,而是“沾染了人和现有流程”的复杂系统。Mercor的APEX-Agents基准测试了480项真实职场任务,覆盖投资银行、咨询和公司法等领域,即使是顶级AI代理,成功率也普遍低于25%。这凸显了在需要多步骤协调和战略判断的非编码任务上,AI仍面临显著瓶颈。
这暴露了一个根本现实:AI不能简单叠加到现有组织流程上。企业工作路径高度依赖历史形成的人力协作、隐性知识和特定工具链,直接引入AI往往带来“污染”而非优化。类似早期ERP系统上线时的阵痛,如今在AI项目中重演——效率不升反降,额外认知负荷让员工疲于应付。历史经验反复证明,技术跃迁若不伴随流程重构和人力适应,执行差距就会吞噬大部分潜在回报。
创新路径已逐渐清晰。其中,按量付费模式基于token、使用次数或API调用计费,让客户只为实际消耗买单,显著降低了试错门槛。OpenAI的API早已采用类似逻辑,不少AI工具也开始探索每对话或每小时活跃使用收费。另一种是结果导向定价,直接以生成的有效线索数量、解决的工单数或节省人力小时作为结算依据,倒逼提供方优化模型集成。混合模式则结合基础订阅与效果分成,既保证稳定性又捕捉价值增长。
短期内,更多企业可能会因数据问题暂停或调整AI项目,预算从单纯模型采购转向基础设施补课,这会带来阵痛但也是必要修正。长期来看,重视数据基础建设的企业将逐步拉开差距,实现从试点到规模化盈利的跨越,而忽略这一步的组织则可能在竞争中被甩开。当然,这里面仍有不确定性:如果隐私计算或数据流通技术取得显著突破,准备门槛或将降低,否则“试点坟场”现象还会延续一段时间。
一个典型案例来自Mercor发布的APEX-Agents基准测试。他们基于投资银行分析师、管理咨询顾问和公司律师的真实工作场景,设计了480个跨应用、多步骤的复杂任务,模拟知识密集型行业的日常决策。使用OpenAI、Anthropic、Google等顶级模型驱动的AI Agent,结果显示最佳模型的首次成功率仅约24%。即使给予8次尝试机会,整体完成率也仅提升至40%左右,大量任务因无法处理模糊性、维持上下文或进行战略判断而失败。
说白了,多数企业AI项目盈利缺失的根源,归根结底在于跳过了数据基础设施这一最底层步骤。模型是工具,干净、可信、结构化的数据才是让工具真正发挥价值的土壤。没有它,再热闹的hype也难以转化为可持续的经济回报。这一点目前行业内仍有不同声音,但数据支持的方向已足够清晰,现在下结论或许为时尚早,却值得每一家推进AI转型的企业认真审视自身数据成熟度。
这个转化的效率差异,正在拉开不同项目之间的差距。