大模型蒸馏(Model Distillation)其实就是 “老师带学生” 的过程。
📖 定义
大模型蒸馏是一种 模型压缩 技术:用一个已经训练好的 大模型(Teacher,老师) 来指导训练一个 小模型(Student,学生),让小模型学到大模型的“思考方式”,在保持较好精度的前提下,计算和存储开销更小。
🔧 原理
-
老师预测:大模型在输入数据上会输出概率分布(不只是最终标签)。
-
例如:输入一张猫的图片,大模型输出
- 猫 🐱:0.92
- 狗 🐶:0.06
- 狐狸 🦊:0.02
-
-
学生模仿:小模型不仅学习正确答案(硬标签),还要学习老师给的概率分布(软标签)。
- 这样学生就能学到更多“隐性知识”,比如“猫和狗有点像,但和飞机完全不像”。
-
蒸馏训练:通过损失函数结合“真实标签 + 老师的概率分布”来训练小模型。
🎯 优点
- 🚀 推理更快:小模型更轻量,能部署到手机、边缘设备。
- 💾 占用更小:参数量少,存储和内存需求降低。
- 🤝 精度较高:性能尽量接近大模型,而不是从零训练的小模型。
📍 应用场景
- 移动端 AI(语音助手、翻译、图像识别)
- 边缘计算(摄像头、IoT 设备)
- 大模型压缩(ChatGPT 类模型下放到低成本服务器)
通俗比喻:
👉 大模型是一个“超级学霸老师”,小模型是“普通学生”。如果学生只背答案,他成绩可能一般;但如果老师告诉他解题思路和细微区别,学生虽然能力有限,但也能考个好成绩。