星辰MaaS产品文档
平台介绍
星辰MaaS平台介绍
API文档
认知大模型
Spark X1 Http调用文档
Spark http调用文档
Spark4.0 Ultra
Spark Max
Spark Pro
Spark Pro-128k
Spark Lite
翻译大模型
人格大模型
代码大模型
医疗大模型
办公大模型
汽车大模型
数字员工大模型
虚拟人大模型
工业大模型
科技文献大模型
口语通用大模型
internlm2_7b_chat
llama2_7b
Chinese-Aplaca-2-7B
codellama_7b_instruction
internlm_7b
Chinese-Alpaca-2-13b-16k
llama-3-chinese-8b-instruct
Chinese-Alpaca-7B
baichuan_7b
spark 13b
spark 2.6b
llama3_8b_instruct
llama2_7b_chat_hf
llama2_13b
falcon_7b_instruct
phi_3_mini_4k_instruct
starcoder2-3b
c4ai_command_r_v01
qwen_v2_0.5b_chat
qwen_v2_1.5b_chat
qwen_v2_72b_chat
gemma2_9b_it
qwen_v2.5_7b_chat
Spark Character
语音大模型
中文识别大模型
多语种识别大模型
超拟人语音合成
多模态
图片生成
图像理解
Stable Diffusion-XL
Visual Transformer
通用OCR大模型
Stable-Diffusion-3-medium-diffusers
SDK文档
星火认知大模型
Windows SDK集成文档
Android SDK集成文档
Linux SDK集成文档
iOS SDK集成文档
识别大模型
Android SDK集成文档
Linux SDK集成文档
超拟人语音合成
Android SDK集成文档
Linux SDK集成文档
iOS SDK集成文档
图片生成
Android SDK集成文档
Linux SDK集成文档
Windows SDK集成文档
iOS SDK集成文档
图像理解
Android SDK集成文档
Linux SDK集成文档
用户指南
申请APPID指引
工单授权指引
鉴权说明
OpenAILike鉴权方式使用说明
WebSocket鉴权使用说明
http鉴权使用说明
大模型精调平台
产品使用说明
数据集格式说明
Web API文档
精调服务_WebSocket协议
精调服务_HTTP协议
图像理解_WebSocket协议
stable_diffusion图片生成
图片分类
bert协议服务
批处理API文档
Prompt工程指南
本文档使用 MrDoc 发布
-
+
首页
图像理解
[#](about:blank#%E5%9B%BE%E7%89%87%E7%90%86%E8%A7%A3-api-%E6%96%87%E6%A1%A3) 图像理解 API 文档 ======================================================================================== [#](about:blank#%E6%8E%A5%E5%8F%A3%E8%AF%B4%E6%98%8E) 接口说明 ---------------------------------------------------------- * 用户输入一张图片和问题,从而识别出图片中的对象、场景等信息回答用户的问题 * 部分开发语言demo如下,其他开发语言请参照文档进行开发,也欢迎热心的开发者到 [讯飞开放平台社区](http://bbs.xfyun.cn/portal.php) 分享你们的demo。 [图片理解 demo go语言](https://xfyun-doc.xfyun.cn/static%2F16957957398724041%2Fimagedemo.go) [图片理解 demo python语言](https://xfyun-doc.xfyun.cn/lc-sp-ImageUnderstanding_pydemo-1705043990224.zip) [图片理解 demo java语言](https://xfyun-doc.xfyun.cn/static%2F16992621378052952%2FImageUnderstanding_javademo.zip) * 集成图像理解时,需按照以下要求: | 内容 | 说明 | | --- | --- | | 传输方式 | ws\[s\] (为提高安全性,强烈推荐wss) | | 请求地址 | wss://spark-api.cn-huabei-1.xf-yun.com/v2.1/image _注:服务器IP不固定,为保证您的接口稳定,请勿通过指定IP的方式调用接口,使用域名方式调用_ | | Content-Type | application/json;charset=UTF-8 | | 接口鉴权 | 签名机制,详情请参照[签名生成](https://www.xfyun.cn/doc/spark/general_url_authentication.html) | | 字符编码 | UTF-8 | | 响应格式 | 统一采用JSON格式 | | 开发语言 | 任意,只要可以向讯飞云服务发起HTTP请求的均可 | | 适用范围 | 任意操作系统,但因不支持跨域不适用于浏览器 | [#](about:blank#%E9%89%B4%E6%9D%83%E8%AF%B4%E6%98%8E) 鉴权说明 ---------------------------------------------------------- 在调用业务接口时,请求方需要对请求进行签名,服务端通过签名来校验请求的合法性。 #### [#](about:blank#%E9%89%B4%E6%9D%83%E6%96%B9%E6%B3%95) 鉴权方法 详情请参照下方[签名生成](https://www.xfyun.cn/doc/spark/general_url_authentication.html) #### [#](about:blank#%E9%89%B4%E6%9D%83%E7%BB%93%E6%9E%9C) 鉴权结果 如果鉴权失败,则根据不同错误类型返回不同HTTP Code状态码,同时携带错误描述信息,详细错误说明如下: | HTTP Code | 说明 | 错误描述信息 | 解决方法 | | --- | --- | --- | --- | | 401 | 缺少authorization参数 | {"message":"Unauthorized"} | 检查是否有authorization参数,详情见[authorization参数详细生成规则](about:blank#%E9%89%B4%E6%9D%83%E6%96%B9%E6%B3%95) | | 401 | 签名参数解析失败 | {“message”:”HMAC signature cannot be verified”} | 检查签名的各个参数是否有缺失是否正确,特别确认下复制的**api\_key**是否正确 | | 401 | 签名校验失败 | {“message”:”HMAC signature does not match”} | 签名验证失败,可能原因有很多。 1\. 检查api\_key,api\_secret 是否正确。 2.检查计算签名的参数host,date,request-line是否按照协议要求拼接。 3\. 检查signature签名的base64长度是否正常(正常44个字节)。 | | 403 | 时钟偏移校验失败 | {“message”:”HMAC signature cannot be verified, a valid date or x-date header is required for HMAC Authentication”} | 检查服务器时间是否标准,相差5分钟以上会报此错误 | 时钟偏移校验失败示例: ``` HTTP/1.1 403 Forbidden Date: Mon, 22 May 2023 05:44:14 GMT Content-Length: 116 Content-Type: text/plain; charset=utf-8 { "message": "HMAC signature does not match, a valid date or x-date header is required for HMAC Authentication" } ``` [#](about:blank#%E8%AF%B7%E6%B1%82%E5%8F%82%E6%95%B0) 请求参数 ---------------------------------------------------------- 在调用业务接口时,都需要在 Http Request Body 中配置以下参数,请求数据均为json字符串。 **请求参数示例:** ``` { "header": { "app_id": "123456", "uid": "39769795890" }, "parameter": { "chat": { "domain": "general", "temperature": 0.5, "top_k": 4, "max_tokens": 2028, "auditing": "default" } }, "payload": { "message": { "text": [ { "role": "user", "content": "base64", "content_type": "image" }, { "role": "user", "content": "这张图片是什么内容", "content_type": "text" } ] } } } ``` **请求参数说明:** | 参数名 | 类型 | 必传 | 描述 | | --- | --- | --- | --- | | header.app\_id | string | 是 | 应用的app\_id,需要在飞云交互平台申请 ,"maxLength":8 | | header.uid | string | 否 | 每个用户的id,非必传字段,用于后续扩展 ,"maxLength":32 | | parameter.chat | object | 是 | 用于上传对话的参数信息 | | parameter.chat.domain | string | 是 | 需要使用的领域,模型:image | | parameter.chat.temperature | float | 否 | 核采样阈值,向上调整可以增加结果的随机程度,取值范围 (0,1\] ,默认值0.5 | | parameter.chat.top\_k | int | 否 | 从k个中随机选择一个(非等概率),最小值1,最大值6,默认值4 | | parameter.chat.max\_tokens | int | 否 | 回答的tokens的最大长度 ,最小值是1, 最大值是8192,默认值2048 | | parameter.chat.auditing | string | 否 | 内容审核的严格程度,strict表示严格审核策略;moderate表示中等审核策略;default表示默认的审核程度 | | parameter.chat.chat\_id | string | 否 | 用于关联会话chat ,需要保障用户下唯一 | | payload.message.text | json/object/array | 是 | 文本数据,受Token限制,有效内容不能超过8192Token | * **单轮交互示例说明:** 单轮交互只需要传递一个user角色的数据 ``` [ // 用户的提问 {"role": "user", "content": "xxx", "content_type":"image"}, // 首个必须是图片 {"role": "user", "content": "你会做什么?"} ] ``` * **多轮交互的格式示例:** 多轮交互需要将之前的交互历史按照user(image)->user->assistant->user->assistant规则进行拼接,保证最后一条是user的当前问题 ``` [ // 拼接对话历史信息: {"role": "user", "content": "xxx", "content_type":"image"}, // 首个必须是图片 {"role": "user", "content": "图片里面有几个人"}, // 用户第一个问题 role是user,表示是用户的提问 {"role": "assistant", "content": "有三个人"}, // AI的第一个回复 role是assistant,表示是AI的回复 // 用户最新的提问 {"role": "user", "content": "几条腿?"} ] ``` 字段参数说明: | 字段 | 含义 | 数据类型 | 取值范围 | 默认值 | 说明 | | --- | --- | --- | --- | --- | --- | | role | 角色 | string | user, assistant | | **user表示是用户的问题,assistant表示AI的回复** | | content | 文本内容 | string | \-- | | 该角色的对话内容 | * **图片数据** ``` { "role": "user", "content": "base64", "content_type": "image", } ``` 字段参数说明: | 字段 | 含义 | 数据类型 | 取值范围 | 默认值 | 说明 | | --- | --- | --- | --- | --- | --- | | role | 角色 | string | user | | 多模的数据上传使用user | | content | 图片的base64数据 | string | \-- | | 模型自动判断格式,直接传二进制数据即可 | | content\_type | 数据的类型 | string | image、text、audio、video | text | 图片上传的时候固定使用image | [#](about:blank#%E8%BF%94%E5%9B%9E%E7%BB%93%E6%9E%9C) 返回结果 ---------------------------------------------------------- **返回参数示例:** 成功 ``` { "header": { "code": 0, "message": "Success", "sid": "cht000704fa@dx16ade44e4d87a1c802", "status": 0 }, "payload": { "choices": { "status": 2, "seq": 0, "text": [ { "content": "这是AI的回复文本", "content_type": "text", "content_meta": { "desc": "xxxx", "url": false, }, "index": 0, "role": "assistant" } ] }, "usage": { "text": { "completion_tokens": 0, "question_tokens": 0, "prompt_tokens": 0, "total_tokens": 0 } } } } ``` 异常 ``` { "header": { "code": 10110, "message": "xxxx", "sid": "cht00120013@dx181c8172afb0001102", "status": 2, } } ``` **返回参数说明:** | 参数 | 类型 | 含义 | | --- | --- | --- | | header.code | int | 服务错误码 , 0表示正常,非0表示出错 | | header.sid | string | 会话的sid | | header.status | int | 会话的状态,取值\[0,1,2\], 其中0表示第一个结果, 1表示中间结果, 2表示最后一个结果 | | header.message | string | 返回消息描述 ,错误码的描述信息 | | payload.choices.status | int | 数据状态 ,0:开始, 1:开始, 2:结束(表示文本响应结束) | | payload.choices.seq | int | 数据序号,最小值:0, 最大值:9999999 | | payload.choices.text | json object array | 文本结果 ,是一个json 数组 | | payload.usage | object | token消耗响应,最后一个结果时,才会有该字段 | | payload.usage.text | json / object | 文本数据 | | payload.usage.text.completion\_tokens | int | 回答tokens大小 | | payload.usage.text.question\_tokens | int | 问题不带历史的tokens大小 ,单轮情况下,此数值会略小于prompt\_tokens | | payload.usage.text.prompt\_tokens | int | 问题总tokens大小 | | payload.usage.text.total\_tokens | int | 问题和回答的tokens大小 | **choices字段参数说明** | 参数 | 类型 | 含义 | | --- | --- | --- | | content | string | 回答的结果 | | content\_type | string | 数据的类型 | | index | int | 结果序号,在多候选中使用 | | role | string | 角色,assistant说明这是AI的回复 | [#](about:blank#%E7%BB%93%E6%9E%9C%E6%A0%BC%E5%BC%8F%E8%A1%A5%E5%85%85%E8%AF%B4%E6%98%8E) 结果格式补充说明 -------------------------------------------------------------------------------------------------- 模型结果除了普通文本类型,为了满足排版需求,会出现以下的标记语言,建议集成方进行适配: * markdown(表格、列表等) * latex(数学公式) [#](about:blank#%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98) 常见问题 ---------------------------------------------------------- #### [#](about:blank#%E5%9B%BE%E7%89%87%E7%90%86%E8%A7%A3%E7%9A%84%E4%B8%BB%E8%A6%81%E5%8A%9F%E8%83%BD%E6%98%AF%E4%BB%80%E4%B9%88%EF%BC%9F) 图片理解的主要功能是什么? > 答:用户输入一张图片和问题,从而识别出图片中的对象、场景等信息回答用户的问题。 #### [#](about:blank#%E5%9B%BE%E7%89%87%E7%90%86%E8%A7%A3%E6%94%AF%E6%8C%81%E4%BB%80%E4%B9%88%E5%BA%94%E7%94%A8%E5%B9%B3%E5%8F%B0%EF%BC%9F) 图片理解支持什么应用平台? > 答:目前支持Web API应用平台。 #### [#](about:blank#%E5%9B%BE%E7%89%87%E7%90%86%E8%A7%A3%E7%9A%84%E6%96%87%E6%9C%AC%E5%A4%A7%E5%B0%8F%E9%99%90%E5%88%B6%E5%A4%9A%E5%B0%91%EF%BC%9F) 图片理解的文本大小限制多少? > 答:有效内容不能超过8192Token。
feiyang5
2024年4月25日 11:06
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档(打印)
分享
链接
类型
密码
更新密码