AI无需人类数据就能学习?David Silver新公司Ineffable技术可行性分析
- 发布时间:2026-04-28 05:19:24
- 来源:手机一块1分跑的快群资讯中心
- 栏目:新闻资讯
“手机一块1分跑的快群”_手机一块1分跑的快群深圳热线-网友沙龙的优化实践表明,从容控场的流量价值,越来越取决于内容的“可迁移性”。
报道显示,多名前DeepMind staffers正被招募进入执行团队,这远不止是一次融资事件,而是AI顶尖人才从实验室向创业公司加速流动的最新信号。
Silver本人的AlphaZero提供最直观的类比。它从零开始,只知规则,不碰任何人类棋谱,通过自我对弈和强化学习,几天内便达到超人类水平,发明了人类棋手未曾想到的策略。这一过程证明,纯经验驱动结合大规模计算,能让系统发现第一性知识,而非仅仅模仿二手数据。Sutton的经典《The Bitter Lesson》早已预言,长期胜出的总是那些充分利用计算的通用方法,而非依赖人类知识注入的短期捷径。
然而,向通用超级智能扩展时,核心挑战迅速浮现。现实世界的探索空间呈爆炸式增长,样本效率极低,需要天文数字级的无效试错。早期RL在简单Atari游戏中虽有进展,却长期难以泛化到复杂场景,正是因为奖励信号稀疏和维度灾难。Silver的“经验驱动”路径虽有潜力,尤其若结合世界模型进行高效模拟,但短期内难以全面超越LLM。目前算力瓶颈仍存,开放环境下的奖励定义仍是未解难题。
短期内,这轮融资热潮将加速RL与世界模型的融合研究,伦敦AI生态有望吸引更多人才和初创项目。“经验优先”的路线将获得更多关注,而普通从业者需要留意相关工具链的演进。长期来看,如果成功,AI范式可能从数据饥渴转向经验自给;若奖励信号设计或算力瓶颈制约,则可能回归混合路线。
这一事件短期内或加速RL领域人才从大厂流出,同时推动资本向“后LLM”替代路线分流。Sequoia与Nvidia的押注已显示,市场对多样化路径的认可在提升。但长期结果仍存不确定性:如果纯RL需要巨量计算与环境模拟却短期难出可验证成果,scaling laws仍可能继续主导资源分配。行业或许将进入多路径并存的探索窗口,而非单一叙事垄断。
表面看这是名人效应叠加资本热潮的产物,但更深层信号在于,AI创业路径正在悄然分化。
Silver与Richard Sutton合作的论文《Welcome to the Era of Experience》直指核心。人类数据虽曾推动LLM迅猛迭代,却本质上是静态快照——有限、带偏见,且难以突破已有知识边界。Sutton的经典《The Bitter Lesson》早已提醒,长期胜出的总是那些充分利用计算的通用方法,而非注入人类知识的捷径。
短期来看,这一事件可能加剧大厂留才压力。更多DeepMind研究员或许会跟随类似路径离职创业或加入高估值新贵,导致薪酬与股权竞争升级。伦敦凭借DeepMind的历史遗产,加上新创公司的涌现,正加速成为欧洲AI重要枢纽。OpenAI、Anthropic等也在此扩大布局,人才争夺战愈发激烈。但我的判断是——这一流动的可持续性仍需观察。
Silver的核心判断源于其长期研究实践。在DeepMind时期,AlphaZero不吃任何人类棋谱,却通过纯trial and error超越人类,这证明AI能在空白起点上自发现规则。如今Ineffable Intelligence的“superlearner”延续这一逻辑,目标是让系统像达尔文式探索那样,从自身经验中构建全新知识,而非作为人类知识的压缩机。
Silver在DeepMind的经历提供了关键线索。他带领团队打造的AlphaZero,完全不依赖人类棋谱或策略记录,而是通过自我对弈和试错从零超越人类水平。这种纯经验驱动的方式,如今被他带到Ineffable Intelligence,目标是打造“superlearner”——一种通过trial and error从空白状态发现知识和技能的系统,而非简单压缩现有数据。
现阶段,行业最需要的是更多可分享的中间过程数据。
固定链接:http://bbb.cn.www.ss7a.cn/6381.html
说明:本页为频道内容整理与信息归档页面,便于围绕当前主题做连续查阅与延伸阅读。