谁有一块1分跑的快群搜索用户,更倾向于停留在能提供清晰认知路径的页面上。
被忽略的最底层步骤,正是数据基础设施建设。企业数据通常碎片化散落在多个系统,格式不一、标签混乱、质量参差,导致AI输出在真实场景中失灵或缺乏可信度。MIT相关研究显示,约95%的生成式AI试点几乎未带来可衡量的P&L影响,数据准备不足被反复列为首要原因之一。Gartner预测,到2026年,缺乏AI就绪数据的项目中,60%以上可能被放弃。
但这些乐观叙事忽略了真实职场中的严峻测试结果。Mercor团队的APEX-Agents基准将顶级AI代理置于480项来自投资银行分析师、管理咨询师和公司律师的真实任务中评估,即便多次尝试,最优模型的首次成功率也仅约24%。大多数复杂、多步骤任务仍难以独立完成。工作流重构的阻力远超想象,简单植入现有流程往往带来更多混乱而非效率,这一点在实际部署中被反复验证。
大多数人看到的AI投资困局,是技术热潮与实际回报之间的鲜明剪刀差。过去几年,AI hype席卷董事会会议室,CEO们在财报电话会上频繁强调转型预期,寄望它能快速拉动收入增长。然而,MIT的一项调研显示,约95%的生成式AI试点项目未能产生可衡量的P&L影响,只有5%的项目实现了快速收入加速。数十亿美元的投入换来的,往往是项目停滞或悄然下马,表面繁荣背后是普遍的失望情绪。
最近,MIT Technology Review的一篇文章用South Park的“underpants gnomes”梗精准捕捉了AI当前的尴尬处境:Step 1是构建数字超级智能,这一步企业已经基本完成;Step 3则是实现经济转型和利润爆发,高管们反复承诺这一点;可中间的Step 2却始终空白。MIT另一份关于企业AI状态的报告进一步刺破泡沫,显示约95%的生成式AI试点项目未能产生可衡量的P&L影响,仅有5%实现了快速收入加速。
主流观点仍以乐观为主。OpenAI等厂商的首席科学家反复强调AI将重塑管理、咨询等知识密集型岗位,Anthropic的报告也预测大量白领工作将被影响,而初期试用反馈多停留在“效率提升明显”的层面。职场人分享用AI辅助文档生成或代码编写后,短期产出确实加快了。但这些表面信息往往忽略了一个核心盲区:真实工作流中的复杂性远超实验室场景,经济可行性并未自然跟随技术进步而来。
主流讨论往往把问题指向“技术成熟度不足”或“监管滞后”。这些因素确实存在,但忽略了一个关键盲区:单纯的技术能力提升,无法自动对接企业现有的工作流。可衡量的机制建设和流程根本性重构,被普遍低估了。
主流媒体和行业报告常聚焦乐观表面。OpenAI等厂商将AI定位为“经济转型技术”,PwC早期预测到2030年AI可贡献15.7万亿美元GDP增量,其中生产力提升是重要来源。部分任务级研究也显示特定环节效率可改善14%至55%。这些数字听起来诱人,却大多建立在基准测试或理论推断之上,而非真实职场部署后的可衡量回报。
执行差距的核心在于AI难以直接取代或优化现有工作流。Anthropic的研究虽指出管理者、建筑师等职业将面临较大变革,但这些更多基于任务类型推断,而非真实职场表现。Mercor今年发布的APEX-Agents基准则更直观:他们用顶级模型驱动的AI代理,测试了480个银行分析师、咨询顾问和律师的典型职场任务,结果每个代理都无法完成大部分长时程、多工具协作的工作。
被忽略的最底层步骤,正是数据基础设施建设。企业长期积累的数据通常碎片化散落在不同系统,标签不一致、质量参差,导致AI在真实场景中输出不稳定甚至失灵。MIT NANDA倡议2025年报告显示,约95%的生成式AI试点几乎没有带来可衡量的P&L影响,数据准备不足被反复列为主要原因之一。Gartner也预测,到2026年,缺乏AI就绪数据支持的项目中,60%将被放弃。
行业数据为这一判断提供了佐证。云基础设施支出近年保持高速增长, hyperscaler在AI相关领域的投资规模已达惊人水平。IDC的预测也显示,中国及亚太地区组织正面临从传统平台向AI适配平台的转型压力。如果云迁移仅止步于搬迁而不伴随现代化,早年云上云却未实现降本增效的教训很可能重演。那时很多企业上了云却未真正受益,如今在AI时代,若再次忽略这一步,资源浪费只会更加显著。
我的观察是,成功的案例往往在“如何连接”上做了更多工作。