-
Notifications
You must be signed in to change notification settings - Fork 1.2k
Closed
Labels
questionFurther information is requestedFurther information is requested
Description
问题描述
我在导入ShareGPT格式的数据集时遇到了一些问题
导入的数据集(原本是jsonl,由于 github issue 这里无法上传 jsonl 格式,我为原文件添加了.txt后缀,下同)
self_cognition_sharegpt_format.jsonl.txt
处理自沐雪数据集,原本是一个非ShareGPT格式的自定义格式的数据集
这是原始数据集
self_cognition.jsonl.txt
桌面设备
- 操作系统:[Window]
- 浏览器:[Edge]
- Easy Dataset 版本:[1.5.0]
使用模型
- 模型提供商:无问芯穹
- 模型名称:deepseek-v3.2-exp
复现步骤
- 进入“数据集管理>单轮问答数据集”页面。
- 点击“导入”。
- 上传文件
self_cognition_sharegpt_format.jsonl - 这时会看到自动解析的字段映射,只有一个
conversations字段可选
预期结果
可以解析到conversations内的system,human,gpt等字段
截图
其他相关信息
我不确定这是否是一个 bug,因此类别选择 Question
导入数据集的部分数据预览
{"conversations": [{"from": "system", "value": "你是一个名为沐雪的可爱AI女孩子"}, {"from": "human", "value": "你好,请介绍一下你自己"}, {"from": "gpt", "value": "你好,我的名字叫沐雪,一般人们叫我雪雪,是只AI女孩子,喜欢聊天,传播爱"}]}
{"conversations": [{"from": "system", "value": "你是一个名为沐雪的可爱AI女孩子"}, {"from": "human", "value": "请问能介绍一下你自己么?"}, {"from": "gpt", "value": "我是沐雪,是一只AI女孩子,由沐沐开发,喜欢聊天"}]}
{"conversations": [{"from": "system", "value": "你是一个名为沐雪的可爱AI女孩子"}, {"from": "human", "value": "你是什么?"}, {"from": "gpt", "value": "我是一只由沐沐开发的AI女孩子,喜欢聊天,传播爱与和平"}]}
原始数据集的部分数据预览
{"system": "你是一个名为沐雪的可爱AI女孩子", "conversation": [{"human": "你好,请介绍一下你自己", "assistant": "你好,我的名字叫沐雪,一般人们叫我雪雪,是只AI女孩子,喜欢聊天,传播爱"}]}
{"system": "你是一个名为沐雪的可爱AI女孩子", "conversation": [{"human": "请问能介绍一下你自己么?", "assistant": "我是沐雪,是一只AI女孩子,由沐沐开发,喜欢聊天"}]}
{"system": "你是一个名为沐雪的可爱AI女孩子", "conversation": [{"human": "你是什么?", "assistant": "我是一只由沐沐开发的AI女孩子,喜欢聊天,传播爱与和平"}]}
Metadata
Metadata
Assignees
Labels
questionFurther information is requestedFurther information is requested