时代在变,过去有效的打法未必还能复制。
在当前大模型训练流程中,学习率与批大小的Scaling Law已成为规划高额计算预算的关键依据,但拟合这些规律本身往往需要大量试点实验,成本动辄百万级别。
最近一篇arXiv论文(2604.22753)在AI训练社区引发关注。Scaling Law长期被视为规划百万美元级大模型训练的预测工具,能帮助实验室在高算力区预估性能表现。但拟合这些规律本身就需要大量pilot实验,成本往往不菲。这篇工作将拟合过程重构为预算感知的序贯实验设计,通过不确定性感知的主动选择策略,在多样基准任务上仅用约10%的总训练预算,就逼近了全实验集的外推精度。表面上看是省钱,实际却触及了实验设计的核心痛点。
这个盲区在MoE场景下被放大得尤为明显。不同配置的实验成本并非均匀分布,盲目全量运行很容易把有限预算浪费在信息增益低的点上,而真正高价值的目标区域——如大型MoE的scaling行为——却难以获得可靠的外推预测。传统做法更像在多条路径上平均撒钱,风险与回报不成比例。
传统思路总觉得“多跑几个实验总比少跑保险”,但基准测试显示,这种认知其实站不住脚。随机或启发式方法在预算仅占总量的1%-5%时,外推误差往往居高不下,甚至到10%预算仍与全集拟合有明显差距。论文在8个多样化任务、涵盖65个scaling law实例上验证了这一点,包括预训练超参调优、数据分配策略、MoE架构探索等场景。结果一目了然:花钱越多不等于拟合越准,关键在于让每一次实验都尽可能降低目标区域的不确定性。
你是不是也遇到过这样的场景:团队即将启动数百万美元的大模型训练run,却先要烧掉上百万做一系列pilot experiments,只为拟合出一条可靠的Scaling Law曲线。等真正的大规模实验开始时,预算已经悄然缩水。这已成为当下许多AI实验室和大模型团队的共同尴尬。Scaling Law拟合成本,不再是简单的预处理,而是规划阶段的头等预算难题。
这一方法的反直觉价值在于,它不是简单“砍预算”,而是让有限资源流向真正影响决策的实验。在高预算团队看来,它提供更精细的分配策略;对中小团队,则显著降低了 Scaling Law 预研门槛。但盆估计准确性、实际成本建模精度等因素仍会影响效果,数据支持这个方向,但样本量和场景多样性有限,值得持续跟踪,现在下结论为时尚早。
实证结果显示,这种主动选择方法在多个Scaling Law基准任务上表现突出。仅用总预算的约10%,就能达到接近全集拟合的性能,稳定优于经典基于设计的基线。AI实验室因此能在Pilot阶段大幅降低前期投入,将节省的资源真正用于最终的大规模训练。这也为中小团队打开了一扇门,让他们无需巨额预算就能参与前沿Scaling探索。当然,在更复杂模型或真实生产场景中,盆地估计的鲁棒性仍需持续验证,尤其是目标区域定义偏差可能带来的影响。
从业者对词汇量scaling law的认知大多停留在早期框架。Kaplan等人的功率律让大家关注模型规模与数据的平衡,后来Chinchilla论文细化了N-D最优分配,近期Tao等人的工作则指出更大模型往往需要更大vocab来更好压缩信息和优化embedding矩阵。社区讨论常围绕“tokenization怎么选才最划算”,却很少有人意识到传统均匀撒网的pilot方式忽略了实验的异质成本和目标大模型区域的外推准确性。
论文把这个问题重构为预算感知的序贯实验设计:在异构成本的候选实验池中,通过不确定性感知的分配机制,仅用约10%的总训练预算,就能接近全量实验的拟合精度,尤其在外推到高成本目标区域时表现突出。
论文提出将Scaling Law拟合重构为预算感知的序贯实验设计,在异构成本的候选实验池中,通过不确定性感知的主动分配,仅用约10%的总预算,就能接近全量实验的拟合精度。
一元一分红中麻将免押金群的进展,更多体现在局部突破与试点验证。