单纯的算法追逐,已经越来越难带来持久优势。
强化学习则代表了另一种从第一性原理出发的路径。它不依赖外部人类数据,而是通过与环境交互、奖励反馈和自我对弈来迭代。AlphaZero的经典案例最具说服力:在完全零人类棋谱输入的情况下,仅给定游戏规则,它就通过无数次自我对弈达到了超人类水平,并在围棋、国际象棋等复杂博弈中展现出人类难以企及的策略深度。
两种范式的博弈,最终指向同一个问题:AI的下一站,是继续在人类知识的化石燃料上卷参数,还是勇敢转向自我生成的经验海洋?这一点目前行业内仍有不同声音。Silver的选择已吸引顶级资本站队,但真正结果,可能还需要几年甚至更长时间的跟踪观察。
表面上看,这笔交易延续了市场对顶级人才项目的追捧。David Silver凭借AlphaGo、AlphaZero等标志性强化学习成果,天然具备背书效应。Ineffable宣称要打造“superlearner”,一种通过自身经验而非海量人类数据发现知识的系统。投资者显然押注其能超越当前LLM主导路径,行业讨论则多集中在“欧洲AI崛起”和“种子轮天价”这些显性标签上。
他和Richard Sutton的合作论文《Welcome to the Era of Experience》已清晰指出,AI正站在从静态数据转向动态经验的门槛上。
短期来看,这一事件可能加剧大厂留才压力。更多DeepMind研究员或许会跟随类似路径离职创业或加入高估值新贵,导致薪酬与股权竞争升级。伦敦凭借DeepMind的历史遗产,加上新创公司的涌现,正加速成为欧洲AI重要枢纽。OpenAI、Anthropic等也在此扩大布局,人才争夺战愈发激烈。但我的判断是——这一流动的可持续性仍需观察。
这种“化石燃料式” shortcut 带来了便利,却也埋下了明显上限:数据质量逐渐见顶,高品质训练数据越来越稀缺,模型容易产生幻觉,且难以生成真正超越人类已知边界的创新。
这一转向短期内已开始影响行业格局。更多强化学习顶尖人才可能跟随类似路径离开大厂,DeepMind等机构的RL团队面临压力。资本层面,部分资金加速分流到“后LLM”或替代路线项目,Sequoia和Nvidia的参与暗示市场对多样化路径的认可在提升。但如果纯RL短期难以产出可验证成果,scaling故事仍将主导资源分配,行业或进入多路径并存的探索期。
对创业者而言,这里的技术路径启示在于评估方式的转变。不要简单跟随主流继续堆参数、扩数据,而是优先问自己:当前项目是否能构建起一个有效的“trial-and-error + world model”闭环?如果能通过模拟环境让AI自主探索,或许能在长期避开数据天花板。当然,这条路的风险同样突出,强化学习在复杂现实任务中的样本效率低、稳定性差等问题,仍需大量工程实践来验证。
Silver的超级学习者愿景听起来极具吸引力,却也提醒我们,AI从“抄人类”转向“自己玩”并非线性复制游戏成功就能实现。核心仍在于如何让试错在无限开放空间中高效收敛,这或许需要数年甚至更长时间的迭代验证。值得持续跟踪Ineffable后续论文与Demo,现在下结论为时尚早。
Silver在公开表态中反复强调,从人类数据时代转向经验时代,才是通往真正超级智能的可持续路径。他把强化学习视作“从第一性原理构建智能”的方式,能像达尔文解释生命那样,解释并构建所有智能。这个观点锐利,却并非空谈——AlphaZero的零数据超人类表现已提供实证。不过,现实世界的复杂性远超棋盘,奖励信号的定义往往需要大量工程努力,训练过程也充满波动。
我的判断是,未来一到两年内,筛选机制会进一步收紧,留下来的大概率是那些能把技术与业务深度融合的玩家。