他们还在用去年的思维应对今年的算法。
短期内,这类方法能让更多中小团队和研究机构以低成本验证自己的Scaling假设,显著降低大模型决策风险。长期来看,AI产业对低预算regime下拟合效率的重视,可能加速整体创新迭代,但外推准确性在极端有限实验池下的表现,仍需持续观察——如果主动选择优化到位,不确定性就能得到有效控制。
这篇论文将Scaling Law拟合重构为预算感知的序贯实验设计问题:在有限候选实验池中,根据每个实验的异质成本,选择最有助于最大化高成本目标区域外推准确性的运行序列。其核心是不确定性感知的采集函数,显式建模Scaling Law参数的后验不确定性,并评估每个潜在实验对减少目标区域预测误差的预期价值。
论文的深层贡献在于引入不确定性感知的采集策略。它将预测误差分解为盆地内方差与盆地间分歧两部分,设计成本惩罚的采集函数,优先选择那些能在有限预算内快速收窄目标区域不确定性的实验点。这有点类似多臂老虎机在预算约束下的变体,但更贴合Scaling Law的异构特性。实证结果显示,在1%预算时方法已开始领先基线,到10%预算时多数任务的外推R²已逼近全数据上限。
为什么传统方法在低预算下容易失效?它们往往假设实验点均匀分布,或仅优化整体参数估计精度,却忽略了目标区域多位于高成本区的事实。新方法显式纳入预算和成本,每次选择都计算候选实验对目标MSPE的预期减少量,并以成本归一化。这让低成本高信息量的点优先入围,高成本点则只在必要时触发。
这种主动实验选择为预算有限的AI研究者提供了可落地路径:从定义实验池与目标区域开始,用成本代理估算如6ND指标,暖启动少量低成本点,再通过顺序循环迭代选择。代码已在GitHub开源,团队可结合自身任务调整。当然,方法依赖混合高斯近似,在极端情况下精度或受限,值得持续跟踪,现在下结论为时尚早。
真实测试进一步验证了其预算效率。在覆盖学习率优化、Mixture-of-Experts配置、稀疏性设计等多类任务的65个实例中,主动方法在仅使用10%预算时,就在多数场景下接近甚至达到全集拟合的外推精度(以目标区域R²衡量)。1%或5%预算水平下,它已显著拉开与基线的差距,而ablation实验确认,两种不确定性分解都不可或缺,前者精炼局部拟合,后者帮助分辨不同外推行为的盆。
传统Scaling Law拟合的代价远超想象。根据arXiv最新预印本,许多团队依赖被动或经典实验设计,如均匀采样或基于D-optimality、V-optimality的策略。这些方法在实验成本高度异构时信息效率低下——低成本区域往往被过度填充,而高成本目标区域的外推精度却迟迟无法提升。常见误区是认为“多跑几个实验总归更准”,但现实中大量预算浪费在信息增益有限的试点上,导致高价值外推区域偏差明显。
论文在涵盖预训练超参、数据分配、架构搜索、MoE变体等8类多样化Scaling Law任务上进行了基准验证,共涉及65个实例。结果显示,该主动选择方法在预算仅占总量的约10%时,往往能接近或匹配全数据集拟合的性能,尤其在困难任务如学习率与批大小联合缩放上,优势更为明显。R²指标在外推目标区域的表现也更稳健,避免了仅依赖廉价实验点导致的误导曲线。
被动设计的本质缺陷在于,它无法明确区分哪些实验对目标区域外推最有用,哪些只是填补已知数据空白。结果就是在工业级规模下,pilot runs本身就消耗巨额资源,全流程拟合加验证动辄百万美元级别。许多团队仍在“烧钱试错”,因为缺乏成本感知和不确定性引导的机制,无法让每一美元都精准流向最能降低目标区域不确定性的方向。这一点在当前大模型规划中尤为突出。
在Scaling Law拟合的实践中,传统方法往往陷入高成本低效率的循环。业界常用均匀采样或经典D-optimal、V-optimal设计来构建pilot实验集,这些做法在参数估计层面有扎实理论支撑,却普遍忽略了实验成本的异构性与目标区域外推的优先级。结果是花了大量预算,收集到的数据点虽多,对高成本大规模训练场景的预测指导却有限。
哪里有一元一分跑的快群的进展,更多体现在局部优化。