Skip to content

grpo 多任务训练 奖励函数设置返回None 这样的话,如果想要查看单个任务的reward曲线,在tensorboard中会出现nan的情况 #4653

Open
@XQZZK

Description

@XQZZK

grpo 多任务训练 奖励函数设置返回None 这样的话,如果想要查看单个任务的reward曲线,在tensorboard中会出现nan的情况

具体来说,是在
swift/trainers/rlhf_trainer/grpo_trainer.py(1522)
metrics = {key: sum(val) / len(val) for key, val in self._metrics[mode].items()} # average the metrics

如果val中存在一个nan的话,那么sum(val)就会为nan

请问如何处理这种情况

Metadata

Metadata

Assignees

Labels

bugSomething isn't working

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions