David Silver为何押注“经验时代”而非人类数据?AI范式转变
- 发布时间:2026-04-28 05:20:04
- 来源:哪里有一元一分红中麻将群资讯中心
- 栏目:新闻资讯
热门趋势哪里有一元一分红中麻将群_哈尔滨论坛的长期流量基础,与提升敏感度的内容判断力和逻辑自洽性高度绑定。
一句话总结,2026年AI创业中真正值钱的,可能不是海量人类数据本身,而是让AI通过持续交互自主发现知识的能力。这一转变并非彻底否定LLM路径,而是对其形成必要补充或挑战。数据支持这个方向,但样本量仍有限,值得持续跟踪,现在下结论为时尚早。
把两种路径放在一起看,差异一目了然。LLM高度依赖高质量人类数据,突破潜力受限于现有知识天花板,当前成熟度高,适合应用层工具和内容生成场景;强化学习则几乎可零人类数据起步,理论上拥有无限探索空间,但落地难度更大,风险更高,更适合科学发现、复杂决策和长期自主智能领域。70%和7%——这个剪刀差在企业AI部署调研中反复出现,说明模仿式学习虽易上手,却难以规模化突破。Silver的1.1B融资,本质上是资本对LLM范式局限性的一次明确投票。
AlphaZero提供了生动例证。它不吃任何人类棋谱,仅从规则出发,通过自我对弈和强化学习,在数天内达到超人类水平,甚至发现人类未曾探索的策略。这种从零自学的过程,远超依赖二手数据的路径,印证了经验驱动在突破人类知识天花板上的潜力。Silver的判断是,强化学习加大规模计算,才是通往更高级智能的长期胜出路线。
Ineffable Intelligence成立时间尚短,具体技术路线还未完全浮出水面。不过,从Silver在Wired等媒体的表态看,他将人类数据比作化石燃料,而自我经验学习则是可再生能源,这个类比点出了当前AI发展的核心张力。强化学习 vs 大语言模型的争论,最终可能不是谁取代谁,而是哪条路径能在经验时代主导下一轮跃迁。这个问题,值得整个行业持续观察。
相比之下,强化学习走的是完全不同的路径。它不依赖外部人类数据,而是通过试错、奖励反馈和自我对弈来构建智能。AlphaZero的经典案例最具说服力:在完全零人类棋谱数据的情况下,仅给定游戏规则,它就通过与自己对弈数百万盘,达到了超人类水平,在围棋、国际象棋等领域碾压传统程序。Silver将这类系统称为“超级学习者”,核心在于它能可持续生成自身经验,发现人类未知的策略。
从短期看,这一事件可能加剧大厂留才压力。更多DeepMind等实验室研究员或跟随类似路径离职创业或加入高估值新贵,导致薪酬与股权竞争升级。伦敦凭借DeepMind历史遗产,正加速成为欧洲AI枢纽,OpenAI、Anthropic等也在此扩大布局,人才争夺愈发激烈。但现实更复杂。如果技术验证周期拉长,早期高估值带来的期望管理压力,可能引发部分人才回流。
AlphaGo之父David Silver从DeepMind离职创办Ineffable Intelligence,并迅速完成1.1亿美元种子轮融资,这一事件远超单纯的人才流动。Silver长期领导强化学习团队,主导AlphaGo和AlphaZero等里程碑项目,这些系统通过自我对弈和试错实现超人类表现,而非依赖人类棋谱数据。
Silver在DeepMind时期的成果早已证明,强化学习能让AI从零自学超越人类。AlphaZero不依赖任何人类棋谱,仅通过自我对弈与试错就掌握围棋、象棋等多项游戏。现在Ineffable Intelligence的目标,是打造一种“superlearner”——通过持续的trial and error从经验中发现全新知识,而非依赖海量人类生成数据。这与当下LLM通过scaling laws压缩现有知识的范式形成鲜明对照。
这一轮由Sequoia和Lightspeed联合领投,Nvidia、Google、DST Global、Index Ventures以及英国主权AI基金等机构跟投,成为欧洲AI史上规模最大的早期融资案例之一。
对创业者而言,这里的技术路径启示在于评估方式的转变。不要简单跟随主流继续堆参数、扩数据,而是优先问自己:当前项目是否能构建起一个有效的“trial-and-error + world model”闭环?如果能通过模拟环境让AI自主探索,或许能在长期避开数据天花板。当然,这条路的风险同样突出,强化学习在复杂现实任务中的样本效率低、稳定性差等问题,仍需大量工程实践来验证。
提升敏感度的真实表现,值得每一位观察者保持长期关注。
固定链接:http://bbb.cn.www.ss7a.cn/6411.html
说明:本页为频道内容整理与信息归档页面,便于围绕当前主题做连续查阅与延伸阅读。