多模态reward模型是否支持正负样本为图片的数据格式？

我想利用rm.sh训练一个多模态模型，用于判断相同提示词生成的图片的好坏，
数据格式如下：

```
{"messages": 
    [
    {"role": "user", "content": "Please generate a video based on the text prompt: [a dog swimming.]"}, 
    {"role": "assistant", "content": "<image>",
    "images": ["/xxx/Good.jpg"]
    }
    ], 
    "rejected_response": "<image>",
    "rejected_images": ["/xxx/Bad.jpg"]
}
```

请问是否支持这种针对图像生成或视频生成任务的多模态奖励模型训练？
是否支持传入视频文件？