Step 3: Actor model和Reward model使用不同的tokenizer #14

Kevin-myxu · 2023-07-25T10:56:58Z

作者您好，首先感谢开源。
我在训练第三阶段的时候，用40G显存的GPU无法加载actor model=llama-7b, reward model =llama-7b，会有OOM的问题，因此我尝试把reward model改为更小的bloom1.7b。但是两个模型不互通tokenizer，在step 3，create model的阶段，加载了不同的tokenizer，然而在计算critic_loss的时候，是不是需要把数据转化为critic tokenizer下的表示，然后再计算critic loss？还是说用actor tokenizer处理的数据计算critic loss时不会有影响？
再次感谢！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Step 3: Actor model和Reward model使用不同的tokenizer #14

Step 3: Actor model和Reward model使用不同的tokenizer #14

Kevin-myxu commented Jul 25, 2023

Step 3: Actor model和Reward model使用不同的tokenizer #14

Step 3: Actor model和Reward model使用不同的tokenizer #14

Comments

Kevin-myxu commented Jul 25, 2023