这也符合搜索引擎对内容“有用性”和“完整性”的双重要求。
过去几年,行业内主流做法是靠大量pilot实验来拟合Scaling Law曲线。许多从业者反馈,跑几十甚至上百个不同规模的训练任务,成本差异显著,小模型便宜,大模型动辄昂贵。随机采样忽略了实验成本的异质性,也未能针对性地优化对高成本大模型区域的预测准确性。这个盲区让不少团队在前期规划时就感到力不从心。
最近一篇arXiv论文(2604.22753)把AI训练圈的注意力拉了回来。Scaling Law本是实验室规划百万美元级大模型训练的利器,能帮团队预判更大算力下的性能表现。但拟合这些规律本身就需要大量pilot实验,成本往往不菲。这篇工作将拟合过程重构为预算感知的序贯实验设计,提出不确定性感知的主动选择策略。在多样基准任务上,该方法仅用约10%的总训练预算,就逼近了全实验集的外推精度。
真实benchmark进一步验证了其效率。论文在8类多样scaling-law任务上构建65个实例,涵盖学习率优化、MoE配置、稀疏性设计等场景。在1%、5%、10%预算水平下,主动实验选择持续优于随机、最便宜优先以及D-opt、V-opt等经典基线。在10%预算时,它在多数任务上接近甚至达到全集拟合的性能(以目标区域R²衡量)。前后对比显示,经典方法在外推误差上明显落后,而主动方法通过优先覆盖高信息增益试点,快速收敛到高精度。
把这个思路放到更广泛的机器学习实验设计背景下看,它的潜力远不止Scaling Law本身。它与主动学习、序贯优化等技术一脉相承,却特别突出了异构成本这个现实约束。在超参数搜索中,不同组合的训练耗时和硬件需求差异巨大,类似预算感知的选择能避免大量无效试错。甚至在AI代理训练或强化学习的环境探索里,也能看到扩展空间——不再是穷举所有可能,而是智能挑出信息增益最高、成本匹配的实验。
当然,事情比表面复杂。如果目标区域外推需求涉及更多异质成本维度或多任务联合优化,当前成本建模可能需要进一步细化,否则优势会打折。主动实验选择方法若在社区快速迭代普及,整体训练预算利用率有望提升;反之,传统均匀撒钱模式下,高浪费状况或许还会延续。这一点目前行业内仍有不同声音,值得持续跟踪,现在下结论为时尚早。
最新arXiv论文《Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection》提出了一种预算感知的主动实验选择框架,将问题转化为序贯实验设计:在异质成本的候选实验池中,动态挑选那些最能提升高成本目标区域外推精度的运行点。
表面上看,行业内讨论Scaling Law时,焦点多集中在最终的计算最优分配公式上。从Kaplan早期工作到Chinchilla论文迭代出的参数-数据平衡思路,大家普遍认可需要足够多样的小规模实验来支撑可靠外推。这一点方向没错,但忽略了实验成本的异质性以及目标高成本区域外推准确性的优先级。结果是大量预算浪费在低价值实验上,本该用于正式训练的资源被提前消耗。
从行业观察看,大模型开发团队越来越感受到单纯堆实验的不可持续性。许多项目在前期的超参数探索上就烧掉数十万到百万级预算,却只得到泛化能力一般的曲线,无法可靠指导百万美元级正式训练。这篇工作提醒我们,实验设计本身可以被优化——不是减少实验数量那么简单,而是让每一分预算都服务于高价值外推。
采集函数的设计是方法论中最为锐利的部分。传统不确定性度量仅关注整体参数空间,而论文强调真正重要的是目标区域的预测准确性。他们将不确定性分解为盆内方差(局部预测波动)和盆间分歧(不同scaling趋势间的冲突),并用目标区域MSPE作为核心指标。采集分数则将预期不确定性降低量除以实验成本进行惩罚,避免盲目偏好高价实验。
大多数从业者对 Scaling Law 的认知仍停留在“多跑 pilot 就能外推准”的阶段。主流做法倾向于随机采样或经典实验设计,如 D-optimal、V-optimal 等。这些方法在预算充裕时可行,但在真实大规模工作流中暴露短板:实验成本高度异构,有的 run 只需几小时 GPU,有的却耗时数天;目标高成本区域却常被低成本小实验稀释,导致预算分配低效,外推到百万级训练时偏差明显。
无论最终走向如何,真人一元一分跑的快群都已嵌入产业升级的主线,区别只在于参与者的准备程度。