数据管理

数据管理用于统一管理数据集，支持数据集创建、多版本管理和共享功能，可在模型精调、推理和评估中使用。
## 数据集创建
平台支持创建三种类型的数据集，包括推理集、评测集和训练集。支持格式包括json、jsonl和CSV文件。
- 训练集：仅能用于模型精调，必须包含input,target字段。具体内容可以参考样例文件
- 评测集：仅能用于模型评估，具体字段可以参考5.3.1模型评估数据来源中对于字段的说明，或者下载样例文件。
- 推理集：仅支持模型推理，用来检验模型的微调效果。必须包含input字段。您也可以传入target字段，用于对比模型推理产生的结果。具体内容可以下载样例文件。

## 数据集说明
- 如果选择训练集，数据用途则为有监督精调SFT，数据格式可以选择Alpaca格式和ShareGPT格式。
  Alpaca格式：适用于结构简单的数据集，主要用于单轮任务。
  ShareGPT格式：适用于结构复杂的数据集，例如含有多轮对话的数据集，通常以json或者jsonl的形式储存。应用于训练能进行多轮对话的模型。
  
![](/media/202506/2025-06-18_153916_6812220.19439200070845264.png)
- 如果选择推理集，数据用途则为在线推理
- 
![](/media/202506/2025-06-18_153928_2410790.31717433810389006.png)
- 如果选择评测集，则数据用途可以选择推理后评测或者直接评测。推理后评测是指使用平台的模型推理功能后进行评测，直接评测是指不使用平台的模型推理功能，直接进行评测。
  
![](/media/202506/2025-06-18_154309_5155650.8966834215393854.png)
  
## 数据集管理列表
打开数据集页面后，进入数据集列表。点击数据集列表页面右上角的创建数据集按钮，出现数据集创建弹窗页面。

![](/media/202506/2025-06-18_154318_9497140.5444730754512971.png)

- 查看与管理数据集
  通过我的数据集列表页，可以查看数据集的信息，包括数据集名称/ ID、创建时间、数据类型、数据格式、数据描述和数据来源等关键信息。

![](/media/202506/2025-06-18_154333_1451080.8079251835142288.png)

平台中不仅内置了医疗领域公开数据集，还支持用户创建自己的数据集。
- 预置数据集
  平台内置包括基础医学、西医临床医学、中医学、公共卫生与预防医学、心理医学、药物医学、护理 医学、伦理医学、医学考试、医学技术和医学问答在内的11种医疗领域公开数据集。

在深入构建模型的全医学领域知识体系的同时，提升被精调模型的多任务处理能力，嵌入伦理知识、确保伦理合规与实践安全。预置数据集也根据不同的角色需求，对数据集进行分类，提升模型训练的准确度。

![](/media/202506/2025-06-18_154341_8113810.09441264406307137.png)

- 我的数据集
  点击我的数据集，页面显示为用户所创建的数据集页面
  填写创建数据集表单，包括数据集名称、数据集描述，选择数据用途、数据格式、上传文件等。
 信息配置完成后，点击确认即完成数据集创建

## 支持进行数据处理
（一）**数据增强**

数据增强指模型训练前，通过优化原始数据的输入和指令来帮助模型更好的理解数据集中的内容以及进行模型训练。其目的在于提高模型的泛化能力。

在数据增强页面中，支持用户查看任务列表、对数据进行在线增强和在线优化

![](/media/202506/2025-06-18_154401_8680660.002394963584633758.png)

- **创建任务**
  
  点击创建任务，即可进入数据增强任务创建页面

![](/media/202506/2025-06-18_154409_4510590.14754920100373003.png)
  您需要完成任务基本信息配置，包括选择增强方式、填写任务名称、选择数据集，选择增强倍数等，即可创建数据增强任务，并保存至任务列表中。

![](/media/202506/2025-06-18_154417_4909870.9672766105696173.png)

- 点击**在线增强**
  即可进入在线增强页面，可根据输入的原始数据及所选增强倍数生成增强后数据。

![](/media/202506/2025-06-18_154436_0860860.7001392410023046.png)

- 点击**在线优化**
  即可进入在线优化页面，可根据输入的原始Prompt生成优化后Prompt及推理结果。

![](/media/202506/2025-06-18_154442_1315670.6142449835416843.png)

（二）**问答对抽取**

问答对抽取是指从文本中自动识别并提取出“问题（输入）-答案（输出）”对的过程。
在该页面中，您可以查看各类已创建问答对抽取任务的任务名称、任务进度、任务状态、创建时间等。

![](/media/202506/2025-06-20_111430_8213120.4084864366537124.png)

- **任务创建**

点击右上方任务创建，即可进入任务创建页面
 
![](/media/202506/2025-06-18_154456_7466430.47177248355048595.png)
  首先，您需要配置任务的基本信息，包括填写任务名称、选择任务类型及导入文本文件。

![](/media/202506/2025-06-18_154607_1763370.43874785096352964.png)

基本信息配置完成后，需要选择切分方式，本平台提供自动切分和自定义切分两种方式。
  - 自动切分：识别段潜之问的层次结构，保持文档结构话义完整，如无相关经验，可选择此项。
  - 自定义切分：支持自定义文本分隔符，如换行符、水平分割线等。

![](/media/202506/2025-06-18_154627_1027040.33615859846774576.png)