模型微调: 训练集&验证集&测试集

大模型时代，微调已成为产品落地的关键环节。但很多人对“训练集、验证集、测试集”的划分逻辑仍模糊不清。本文将从数据集的功能定位出发，梳理微调流程中的关键节点，帮助你建立清晰的模型调优认知框架。

在做模型微调时，我们总在追问一个问题：模型到底调得好不好？

但“好不好”不是主观判断，更不能只看loss降了没、F1提高了没。你真正要做的，是确保模型对未知数据具备稳定的泛化能力。而评估这个问题的基础，不是参数，不是模型结构，而是你是否搞清楚了这三类数据的边界和作用：训练集、验证集、测试集。

这篇文章就是为了解决一个核心问题：训练、验证、测试三类数据集，我们到底要搞清楚哪些关键点？

1.它们分别是什么？——不是“都用来训练”的

训练集：模型学习参数的地方。它是“教材”，模型直接在上面反复拟合，loss就是在这上面算的。

验证集：训练过程中用来评估模型表现的数据集，用于调参、早停、选结构，但本身不参与训练。

测试集：训练和调参全部结束后才使用，用于评估最终泛化能力。它是真正的“考试卷”，结果直接决定模型能不能上线。

关键点：验证集≠测试集，不能混用。前者参与调参，后者必须独立留存、只评估一次。

2.怎么划分？——不是固定比例，而是视情况而定

划分比例要根据数据量来定，按照训练集/验证集/测试集顺序：

数据量大（>10万）：推荐80%/10%/10%，训练集多给，验证和测试也足够产生统计稳定性。

中等规模（1万~10万）：建议70%/15%/15%或75%/15%/10%，保证每个阶段都有代表性。

数据少（<1万）：可用K-fold交叉验证，或采用80%/20%(验证+测试)的训练，验证+测试组合，最后用hold-out评估。

关键点：划分不只是数字分配，而是为后续各阶段的判断提供干净、合理的数据依据。

3.什么时候用？——三阶段推进逻辑要清晰

关键点：测试集不是“看看效果”这么简单，它是上线与否的最终评判标准。

4.看什么指标？——指标种类随阶段推进而变化

关键点：指标种类不是越多越好，而是越靠后越细。训练关注模型学得对不对，验证关注泛化是否稳定，测试关注结果能否交付。

5.指标值怎么变化？——一定变，而且变化有规律

一般来说，三个阶段的指标值会逐步下降。如果下降很小，说明模型泛化性好；如果训练集很高、验证集和测试集很低，就说明模型过拟合了。

关键点：不是看哪个值高，而是看三者之间的落差是否合理、是否稳定。

这正是为什么说：模型微调不是调一个数值变漂亮，而是验证一个过程是否稳得住。模型效果看起来不错，不代表它能泛化；只有训练、验证、测试三者的指标走势符合规律，落差可控，你才能说：这个模型，不只是能学，而是能用。

所以，你调的不是loss，而是在验证泛化能力。

真正靠谱的微调流程，从来不是“训练得多就行”，而是对每一阶段都心中有数：

我在训练集上，模型是不是学得会；

验证集反馈，是否能稳定指导调参；

测试集结果，是不是唯一一次真实模拟上线表现。

别再混淆它们的角色，也别再用验证集“顺手一评”就当结论交差。搞清楚这三者的边界与节奏，是你真正具备构建可交付模型能力的标志。