本期播客精华汇总
1. Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in MathPhi-4-Mini-Reasoning:探索小型数学推理语言模型的极限通过四阶段训练(大规模蒸馏、微调、偏好优化、强化学习),仅38亿参数的Phi-4-Mini-Reasoning在数学推理上超越70亿-80亿参数模型,揭示小模型需“量体裁衣”的训练策略,反直觉地发现朴素高质量数据可能有害。
2. ParamΔ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost直接权重混合的 ParamΔ:零成本训练后的大型语言模型ParamΔ通过简单权重差值加法,将后训练能力零成本迁移到新基座模型,性能达官方版的95%,为...
去小宇宙查看完整单集简介在小宇宙查看该单集文稿