星辰MaaS产品文档
平台介绍
星辰MaaS平台介绍
API文档
认知大模型
Spark X1 Http调用文档
Spark http调用文档
Spark4.0 Ultra
Spark Max
Spark Pro
Spark Pro-128k
Spark Lite
翻译大模型
人格大模型
代码大模型
医疗大模型
办公大模型
汽车大模型
数字员工大模型
虚拟人大模型
工业大模型
科技文献大模型
口语通用大模型
internlm2_7b_chat
llama2_7b
Chinese-Aplaca-2-7B
codellama_7b_instruction
internlm_7b
Chinese-Alpaca-2-13b-16k
llama-3-chinese-8b-instruct
Chinese-Alpaca-7B
baichuan_7b
spark 13b
spark 2.6b
llama3_8b_instruct
llama2_7b_chat_hf
llama2_13b
falcon_7b_instruct
phi_3_mini_4k_instruct
starcoder2-3b
c4ai_command_r_v01
qwen_v2_0.5b_chat
qwen_v2_1.5b_chat
qwen_v2_72b_chat
gemma2_9b_it
qwen_v2.5_7b_chat
Spark Character
语音大模型
中文识别大模型
多语种识别大模型
超拟人语音合成
多模态
图片生成
图像理解
Stable Diffusion-XL
Visual Transformer
通用OCR大模型
Stable-Diffusion-3-medium-diffusers
SDK文档
星火认知大模型
Windows SDK集成文档
Android SDK集成文档
Linux SDK集成文档
iOS SDK集成文档
识别大模型
Android SDK集成文档
Linux SDK集成文档
超拟人语音合成
Android SDK集成文档
Linux SDK集成文档
iOS SDK集成文档
图片生成
Android SDK集成文档
Linux SDK集成文档
Windows SDK集成文档
iOS SDK集成文档
图像理解
Android SDK集成文档
Linux SDK集成文档
用户指南
申请APPID指引
工单授权指引
鉴权说明
OpenAILike鉴权方式使用说明
WebSocket鉴权使用说明
http鉴权使用说明
大模型精调平台
产品使用说明
数据集格式说明
Web API文档
精调服务_WebSocket协议
精调服务_HTTP协议
图像理解_WebSocket协议
stable_diffusion图片生成
图片分类
bert协议服务
批处理API文档
Prompt工程指南
本文档使用 MrDoc 发布
-
+
首页
数据集格式说明
# 大模型微调平台数据集格式说明 大模型微调平台支持**文本生成、文生图、图像分类**等**多模态**微调任务,以下为各类微调任务所需数据的**详细格式说明**: ## 一、文本生成数据格式说明 当前平台支持**星火大模型**以及第三方**开源大模型**,数据集支持**Alpaca格式**和**ShareGPT格式**,涵盖了行业**所有主流的数据格式**,以下为**详细格式说明**: ### 1.Alpaca格式说明 -------------------------------- 在Alpaca格式下的**指令监督微调**中,**instruction**列对应的内容会与**input**列对应的内容**拼接**后作为**人类指令**,即人类指令为**instruction\\input**。而**output**列对应的内容为**模型回答**。如果指定,**system**列对应的内容将被作为**系统提示词**。**history**列是由**多个字符串二元组**构成的**列表**,分别代表历史消息中**每轮对话的指令和回答**。 > **注:** **历史消息**中的**回答内容**也会被**用于模型学习**。 ``` [ { "instruction": "人类指令(必填)", "input": "人类输入(选填)", "output": "模型回答(必填)", "system": "系统提示词(选填)", "history": [ ["第一轮指令(选填)", "第一轮回答(选填)"], ["第二轮指令(选填)", "第二轮回答(选填)"] ] } ] ``` * 对于上述格式的数据,dataset\_info.json中的数据集描述应为: ``` "数据集名称": { "file_name": "data.json", "columns": { "prompt": "数据集代表提示词的表头名称(默认:instruction)", "query": "数据集代表请求的表头名称(默认:input)", "response": "数据集代表回答的表头名称(默认:output)", "system": "数据集代表系统提示的表头名称(默认:system)", "history": "数据集代表历史对话的表头名称(默认:history)" } } ``` * Alpaca格式数据具体示例如下: ``` { "instruction": "描述一个可以从人工智能技术中受益的医疗应用。", "input": "", "output": "用于帮助医生诊断疾病的人工智能辅助诊断系统可以被视为一个可以从人工智能技术中受益的医疗应用。这种系统通过使用深度学习算法来分析患者的病史、临床数据和医学影像资料,能够为医生提供准确的诊断建议。\n\n例如,人工智能技术可以用来分析X光片、 CT扫描和MRI扫描图像,帮助医生诊断肺炎,肿瘤,中风等疾病。此外,通过分析大量患者数据,人工智能系统能够找出患病风险较高的人群并预测潜在健康问题,从而为预防性医疗提供有力支持。\n\n这类人工智能系统不仅能够提高诊断准确性,还能帮助医生节约时间,让他们能够更好地关注患者的治疗。因此,人工智能辅助诊断系统是一个可以从人工智能技术中受益的医疗应用,具有广阔的发展前景。", "system": "", "history": "" } ``` ### 2.ShareGPT 格式说明 -------------------------------------- 相比Alpaca格式的数据集,**ShareGPT格式**支持**更多的角色种类**,例如**human、gpt、observation、function**等。它们构成一个对象列表呈现在**conversations**列中。 > **注:** 其中**human**和**observation必须**出现在**奇数位置**,**gpt**和**function**必须出现在**偶数位置**。 ``` [ { "conversations": [ { "from": "human", "value": "人类指令" }, { "from": "function_call", "value": "工具参数" }, { "from": "observation", "value": "工具结果" }, { "from": "gpt", "value": "模型回答" } ](必填), "system": "系统提示词(选填)", "tools": "工具描述(选填)" } ] ``` * 对于上述格式的数据,dataset\_info.json中的数据集描述应为: ``` "数据集名称": { "file_name": "data.json", "formatting": "sharegpt", "columns": { "messages": "数据集代表消息列表的表头名称(默认:conversations)", "system": "数据集代表系统提示的表头名称(默认:system)", "tools": "数据集代表工具描述的表头名称(默认:tools)" }, "tags": { "role_tag": "消息中代表发送者身份的键名(默认:from)", "content_tag": "消息中代表文本内容的键名(默认:value)", "user_tag": "消息中代表用户的 role_tag(默认:human)", "assistant_tag": "消息中代表助手的 role_tag(默认:gpt)", "observation_tag": "消息中代表工具返回结果的 role_tag(默认:observation)", "function_tag": "消息中代表工具调用的 role_tag(默认:function_call)", "system_tag": "消息中代表系统提示的 role_tag(默认:system)" } } ``` * ShareGPT格式数据具体示例如下: ``` { "conversations": [ { "from": "human", "value": "你好,我出生于1990年5月15日。你能告诉我我今天几岁了吗?" }, { "from": "function_call", "value": "{\"name\": \"calculate_age\", \"arguments\": {\"birthdate\": \"1990-05-15\"}}" }, { "from": "observation", "value": "{\"age\": 31}" }, { "from": "gpt", "value": "根据我的计算,你今天31岁了。" } ], "tools": "[{\"name\": \"calculate_age\", \"description\": \"根据出生日期计算年龄\", \"parameters\": {\"type\": \"object\", \"properties\": {\"birthdate\": {\"type\": \"string\", \"description\": \"出生日期以YYYY-MM-DD格式表示\"}}, \"required\": [\"birthdate\"]}}]" } ``` ### 3.推理集格式说明 -------------------------- 在**文本生成任务**中,**推理集**用于**检测模型微调效果**,平台支持**jsonl格式**和**csv格式**。 * jsonl格式文件要求如下: > 1. **jsonl文件**内每条**数据格式**要求为 **{“input”:“你的问题”,“target”:“回答内容”}**。 > 2. 每一行表示一组数据,**每组数据**中的**input和target加起来之和**字符数**不超过4000个字符(包括中英文、数字、符号等)**,超出部分将被截断。 > 3. 支持**文本文件类型为JSONL**,**编码**仅支持**UTF-8**,单次上传**限制1个文件**。 > 4. 训练集数量**spark pro≥1500条**,**sparklite≥100条**,**文件<500M**;**测试集数量范围为10-200条**。 * jsonl具体数据格式示例如下: ``` {"input":"买房银行贷款贷多少年。","target":"1、个人住房贷款最长为30年;2、个人商业贷款最长期限为10年。"} ``` * csv格式文件要求如下: > 1. 文件内单组数据**表格一行代表一组数据**,**第一列为input**,**第二列为target**。 > 2. **每一行表示一组数据**,**每组数据**中的**input和target加起来之和**字符数**不超过4000个字符(包括中英文、数字、符号等)**,超出部分将被截断。 > 3. 支持**文本文件类型为 csv**,**编码**仅支持**UTF-8**,单次上传**限制1个文件**。 > 4. 训练集数量**spark pro≥1500条**,**sparklite>100条**,**文件<500M**;**测试集数量范围为10-200条**。 * csv具体数据格式示例如下: | input | target | | ------------------------------------ | ------------------------------------------------------------ | | 大润发住房公积金贷二手房能贷多少钱。 | 各地公积金政策有所不同,建议通过官网查询或者咨询当地公积金管理中心,官方电话是12#29。 | | ... | ... | ## 二、文生图数据格式说明 当前平台支持第三方**Stable-Diffusion模型**,微调数据集为**图片+Prompt**,图片格式支持**jpg、jpeg、png、bmp**等,**Prompt**为**jsonl格式**,**图片比例为1:1**,单张图片大小需**限制在4MB**以内,一个数据集总图片数**不少于20张**,**不大于1000张**,仅支持**zip压缩**上传。  * 具体数据格式示例如下: | 000.jpeg | metadata.jsonl | | -------------------------------------------------------- | ------------------------------------------------------------ | |  | {"file\_name": "000.jpeg", "text": "a drawing of a green pokemon with red eyes"} | | ... | ... | > 注: **Prompt**支持**中文和英文**两种语言,**英文Prompt**效果**更佳**。 ## 三、图像分类数据格式说明 当前平台支持第三方**Vision Transformer(ViT)模型**,微调数据集为**图片**,图片格式支持**jpg、jpeg、png、bmp**等,图片大小在**4M内**,一个数据集总图片数**不少于100张**,**不大于20000张**,压缩包**不大于500M**,压缩包内应**至少包含两个文件夹**,**文件夹名为标签名**需以**英文命名**,**图片文件可中英文命名**仅支持**zip压缩**上传。  * 具体数据格式示例如下: | lily | peony | ... | | -------------------------------------------------------- | -------------------------------------------------------- | ---- | |  |  | ... | | ... | ... | ... |
admin
2025年1月20日 12:04
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档(打印)
分享
链接
类型
密码
更新密码