为什么GLM4训练代码效果比别的项目好这么多？ #672

morettt · 2024-12-13T21:51:19Z

我用了一年多的第三方训练平台，比如 llama-factory、swift 这些。用下来最大的感受就是它们特别容易过拟合，对数据质量要求也特别高。

自从 GLM4 发布以来，就不一样了。用 finetune.py 加上 LoRA 方式训练，几十条数据就能训出特别好的效果。最神奇的是，在模型、数据、超参数都一模一样的情况下，GLM4 训出来的模型基本不会过拟合。

我拿动漫角色的数据来举个例子。其他项目（如 llama-factory）虽然初期表现尚可，达到七八成的效果，但随着对话深入，很快就会暴露出过拟合特征。这些特征包括：重复输出相同内容、角色身份认知混乱（将自己误认为用户）、无限循环某个词句等问题。但是用 GLM4 训练，完全是另一番景象，训练效果特别到位，而且就算数据再少也很难看到明显的过拟合。

我最近参加了阿里云天池的大模型竞赛，这也是我的首次参赛。仅使用 GLM4 项目和模型，采用 LoRA 微调方式，甚至没有用完全部比赛数据，就取得了第 8 名的成绩。为了验证这一差异，我尝试将相同的比赛数据放到 llama-factory 上训练，直接就梯度爆炸了，loss 飙升得没边了，调参也解决不了。

这些经历让我现在基本放弃了用了一年多的 llama-factory，改用 GLM4 来做各种任务。遇到人我就推荐这个项目。说实在的，我特别好奇它的训练代码到底有什么独到之处。是因为用了 Seq2SeqTrainer 这个训练器吗？还是其他什么原因？不管怎样，能写出这么优秀的训练代码，作者真的很厉害。

zRzRzRzRzRzRzR · 2024-12-30T05:19:30Z

我们的微调代码其实就是一个基本的基于transformers和 PEFT 框架书写的微调代码。
我觉得你可以关注一下 llama-factory微调和我们官方代码微调的不同，特别是loss和训练部分。
我对llama-factory不是很熟悉，但是我知道他的微调实现可能与 PEFT 有一点不同。
我们在微调数据集构造的时候可能没有考虑到兼容性（其他家模型），但是针对GLM-4的微调以及token的布局是正确的。
这可能是导致你用同一套数据集，但是我们的方法和lama-factory微调效果差距较大的原因
（个人理解）

zRzRzRzRzRzRzR self-assigned this Dec 30, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

为什么GLM4训练代码效果比别的项目好这么多？ #672

为什么GLM4训练代码效果比别的项目好这么多？ #672

morettt commented Dec 13, 2024

zRzRzRzRzRzRzR commented Dec 30, 2024

为什么GLM4训练代码效果比别的项目好这么多？ #672

为什么GLM4训练代码效果比别的项目好这么多？ #672

Comments

morettt commented Dec 13, 2024

zRzRzRzRzRzRzR commented Dec 30, 2024