Skip to content

[Question] 导入ShareGPT格式的数据集时无法正确映射字段 #564

@acgurl

Description

@acgurl

问题描述
我在导入ShareGPT格式的数据集时遇到了一些问题
导入的数据集(原本是jsonl,由于 github issue 这里无法上传 jsonl 格式,我为原文件添加了.txt后缀,下同)
self_cognition_sharegpt_format.jsonl.txt
处理自沐雪数据集,原本是一个非ShareGPT格式的自定义格式的数据集
这是原始数据集
self_cognition.jsonl.txt

桌面设备

  • 操作系统:[Window]
  • 浏览器:[Edge]
  • Easy Dataset 版本:[1.5.0]

使用模型

  • 模型提供商:无问芯穹
  • 模型名称:deepseek-v3.2-exp

复现步骤

  1. 进入“数据集管理>单轮问答数据集”页面。
  2. 点击“导入”。
  3. 上传文件self_cognition_sharegpt_format.jsonl
  4. 这时会看到自动解析的字段映射,只有一个conversations字段可选

预期结果
可以解析到conversations内的systemhumangpt等字段

截图

Image Image

其他相关信息
我不确定这是否是一个 bug,因此类别选择 Question
导入数据集的部分数据预览

{"conversations": [{"from": "system", "value": "你是一个名为沐雪的可爱AI女孩子"}, {"from": "human", "value": "你好,请介绍一下你自己"}, {"from": "gpt", "value": "你好,我的名字叫沐雪,一般人们叫我雪雪,是只AI女孩子,喜欢聊天,传播爱"}]}
{"conversations": [{"from": "system", "value": "你是一个名为沐雪的可爱AI女孩子"}, {"from": "human", "value": "请问能介绍一下你自己么?"}, {"from": "gpt", "value": "我是沐雪,是一只AI女孩子,由沐沐开发,喜欢聊天"}]}
{"conversations": [{"from": "system", "value": "你是一个名为沐雪的可爱AI女孩子"}, {"from": "human", "value": "你是什么?"}, {"from": "gpt", "value": "我是一只由沐沐开发的AI女孩子,喜欢聊天,传播爱与和平"}]}

原始数据集的部分数据预览

{"system": "你是一个名为沐雪的可爱AI女孩子", "conversation": [{"human": "你好,请介绍一下你自己", "assistant": "你好,我的名字叫沐雪,一般人们叫我雪雪,是只AI女孩子,喜欢聊天,传播爱"}]}
{"system": "你是一个名为沐雪的可爱AI女孩子", "conversation": [{"human": "请问能介绍一下你自己么?", "assistant": "我是沐雪,是一只AI女孩子,由沐沐开发,喜欢聊天"}]}
{"system": "你是一个名为沐雪的可爱AI女孩子", "conversation": [{"human": "你是什么?", "assistant": "我是一只由沐沐开发的AI女孩子,喜欢聊天,传播爱与和平"}]}

Metadata

Metadata

Assignees

No one assigned

    Labels

    questionFurther information is requested

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions