8张A800(80G)微调Cogagent依然报错： CUDA out of memory #450

GuoXu-booo · 2024-04-10T08:30:53Z

torch 2.0.1+cu118
torchaudio 2.0.2+cu118
torchvision 0.15.2+cu118
cuda 11.8

按照官方提供的脚本执行：bash finetune_cogagent_lora.sh 模型文件使用的是sat模型权重。

官方提到微调需要的配置是4张A100即可

zRzRzRzRzRzRzR · 2024-04-15T01:30:16Z

跟几张卡没有关系，因为是数据并行，你只要确定单张卡容量能装下配置文件下（bs=1）的一个模型

zhanghaobucunzai · 2024-04-24T01:18:20Z

我也遇到了，除了train_micro_batch_size_per_gpu参数改为1，还有什么版本减少内存呢？

WeiminLee · 2024-05-15T04:39:36Z

不要使用deepseek 的分布式，直接运行finetune代码，from_pretrain()中设置 device-map=”auto“。其实就是改成单线程多GPU形式微调。自动布满全部GPU

WeiminLee · 2024-05-15T04:40:23Z

或者改成deepspeed 的PP 模式流水线并行。不过流水线需要你自己拆解模型为多个层；

zRzRzRzRzRzRzR self-assigned this Apr 15, 2024

Provide feedback