有关finetune的compute_metric

看代码逻辑，似乎会在process_batch_eval这一步中将一轮对话中role为user和assistant拆成两轮，后续计算label_token和pred_token的rouge分数的时候，不就成了当前user文本和模型根据当前文本预测输出文本之间的相似度了么，难道不应该是当前user文本对应的assistant和模型预测输出做相似度么？