grpo 多任务训练 奖励函数设置返回None 这样的话，如果想要查看单个任务的reward曲线，在tensorboard中会出现nan的情况

grpo 多任务训练 奖励函数设置返回None 这样的话，如果想要查看单个任务的reward曲线，在tensorboard中会出现nan的情况

具体来说，是在
swift/trainers/rlhf_trainer/grpo_trainer.py(1522)
metrics = {key: sum(val) / len(val) for key, val in self._metrics[mode].items()}  # average the metrics

如果val中存在一个nan的话，那么sum(val)就会为nan

请问如何处理这种情况