miniChatGPT基于Huggingface GPT2,支持有监督微调(SFT)、奖励模型(Reward Model)和PPO全流程ChatGPT训练。
- 使用prepare_sft_dataset.py准备训练数据
- 使用train_sft.py进行有监督微调(SFT)
- 使用train_rm.py训练奖励模型(Reward Model)
- 基于奖励模型,使用train_ppo.py对SFT模型进行进一步PPO训练
- 运行main.py检查模型运行效果
本项目是对minChatGPT的修改和完善,感谢minChatGPT的辛勤工作。