看代码逻辑,似乎会在process_batch_eval这一步中将一轮对话中role为user和assistant拆成两轮,后续计算label_token和pred_token的rouge分数的时候,不就成了当前user文本和模型根据当前文本预测输出文本之间的相似度了么,难道不应该是当前user文本对应的assistant和模型预测输出做相似度么?