智谱发布的免费视觉模型GLM-4V-Flash并发数限制提升到10，这次生产环境够用了

AI新闻1年前发布 AI分享圈

75K 00

GLM-4V系列

GLM-4V系列包含3款模型，分别适用于不同的应用场景。

GLM-4V-Plus:具备卓越的多模态理解能力，可同时处理最多5张图像，并支持视频内容理解，适用于复杂的多媒体分析场景。
GLM-4V:专注于图像内容理解，能够同时解析最多5张图像，适合于需要深度图像理解的场合。
GLM-4V-Flash（免费）: 专注于高效的单一图像理解，适用于快速图像解析的场景，例如实时图像分析或批量图像处理。

同步调用

接口请求

类型	说明
传输方式	https
请求地址	https://open.bigmodel.cn/api/paas/v4/chat/completions
调用方式	同步调用，等待模型执行完成并返回最终结果或 SSE 调用
字符编码	UTF-8
接口请求格式	JSON
响应格式	JSON 或标准 Stream Event
接口请求类型	POST
开发语言	任意可发起 http 请求的开发语言

请求参数

参数名称	类型	必填	参数说明
model	String	是	调用的模型编码。模型编码：glm-4v-plus 、glm-4v、glm-4v-flash(免费)
messages	List	是	调用语言模型时，将当前对话信息列表作为提示输入给模型，按照 json 数组形式进行传参。比如，视频理解参数：`{ "role": "user", "content": [ { "type": "video_url", "video_url": { "url" : "https://xxx/xx.mp4" } }, { "type": "text", "text": "请仔细描述这个视频" } ] }`图片理解参数：`{ "role": "user", "content": [ { "type": "image_url", "image_url": { "url" : "https://xxx/xx.jpg" } }, { "type": "text", "text": "解释一下图中的现象" } ] }`可能的消息类型包括 User message、Assistant message。见下方 message 消息字段说明。
request_id	String	否	由用户端传参，需保证唯一性；用于区分每次请求的唯一标识，用户端不传时平台会默认生成。
do_sample	Boolean	否	do_sample 为 true 时启用采样策略，do_sample 为 false 时采样策略 temperature、top_p 将不生效
stream	Boolean	否	使用同步调用时，此参数应当设置为 Fasle 或者省略。表示模型生成完所有内容后一次性返回所有内容。如果设置为 True，模型将通过标准 Event Stream ，逐块返回模型生成内容。Event Stream 结束时会返回一条`data: [DONE]`消息。
temperature	Float	否	采样温度，控制输出的随机性，必须为正数取值范围是：`[0.0,1.0]`，默认值为 0.8，值越大，会使输出更随机，更具创造性；值越小，输出会更加稳定或确定建议您根据应用场景调整 `top_p` 或 `temperature` 参数，但不要同时调整两个参数
top_p	Float	否	用温度取样的另一种方法，称为核取样取值范围是：`[0.0, 1.0]`，默认值为 0.6 模型考虑具有 `top_p` 概率质量 tokens 的结果例如：0.1 意味着模型解码器只考虑从前 10% 的概率的候选集中取 tokens 建议您根据应用场景调整 `top_p` 或 `temperature` 参数，但不要同时调整两个参数
max_tokens	Integer	否	模型最大输出 tokens ，默认为1024，最大支持 1024tokens.
user_id	String	否	终端用户的唯一ID，协助平台对终端用户的违规行为、生成违法及不良信息或其他滥用行为进行干预。ID长度要求：最少6个字符，最多128个字符。

Messages 格式

模型可接受的消息类型包括 User message、Assistant message ，不同的消息类型格式有所差异。具体如下：

User message

参数名称	类型	必填	参数说明
role	String	是	消息的角色信息，此时应为`user`
content	List	是	消息内容。
type	String	是	文本类型：text图片类型：image_url视频类型：video_url视频和图片类型不能同时输入
text	String	是	type是text 时补充
image_url	Object	是	type是image_url 时补充
url	String	是	图片url或者base64编码。图像大小上传限制为每张图像 5M以下，且像素不超过 6000*6000。支持jpg、png、jpeg格式。说明： GLM-4V-Flash 不支持base64编码
video_url	Object	是	type是video_url 时补充，仅glm-4v-plus支持视频输入视频理解时，video_url参数必须在第一个。
url	String	是	视频url。视频大小仅支持20M以内，视频时长不超过 30s。支持的视频类型 mp4 。

Assistant message

参数名称	类型	必填	参数说明
role	String	是	消息的角色信息，此时应为`assistant`
content	String	是	消息内容

响应参数

参数名称	类型	参数说明
id	String	任务 ID
created	Long	请求创建时间，是以秒为单位的 Unix 时间戳。
model	String	模型名称
choices	List	当前对话的模型输出内容
index	Integer	结果下标
finish_reason	String	模型推理终止的原因。`stop`代表推理自然结束或触发停止词。`length` 代表到达 tokens 长度上限。`sensitive` 代表模型推理内容被安全审核接口拦截。`network_error` 代表模型推理异常。
message	Object	模型返回的文本信息
role	String	当前对话的角色，目前默认为 assistant（模型）
content	List	当前对话的内容
usage	Object	结束时返回本次模型调用的 tokens 数量统计
prompt_tokens	Integer	用户输入的 tokens 数量
completion_tokens	Integer	模型输出的 tokens 数量
total_tokens	Integer	总 tokens 数量
content_filter	List	返回内容安全的相关信息
role	String	安全生效环节，包括`role = assistant` 模型推理，`role = user` 用户输入，`role = history` 历史上下文
level	Integer	严重程度 level 0-3，level 0表示最严重，3表示轻微

请求示例

上传视频 URL

#视频理解示例、上传视频URL
from zhipuai import ZhipuAI
client = ZhipuAI(api_key="YOUR API KEY") # 填写您自己的APIKey
response = client.chat.completions.create(
model="glm-4v-plus",  # 填写需要调用的模型名称
messages=[
{
"role": "user",
"content": [
{
"type": "video_url",
"video_url": {
"url" : "https://sfile.chatglm.cn/testpath/video/xxxxx.mp4"
}
},
{
"type": "text",
"text": "请仔细描述这个视频"
}
]
}
]
)
print(response.choices[0].message)

上传视频 Base64

import base64
from zhipuai import ZhipuAI
video_path = "/Users/YourCompluter/xxxx.mp4"
with open(video_path, 'rb') as video_file:
video_base = base64.b64encode(video_file.read()).decode('utf-8')
client = ZhipuAI(api_key="YOUR API KEY") # 填写您自己的APIKey
response = client.chat.completions.create(
model="glm-4v-plus",  # 填写需要调用的模型名称
messages=[
{
"role": "user",
"content": [
{
"type": "video_url",
"video_url": {
"url" : video_base
}
},
{
"type": "text",
"text": "请仔细描述这个视频"
}
]
}
]
)
print(response.choices[0].message)

上传图片 URL

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 填写您自己的APIKey
response = client.chat.completions.create(
model="glm-4v",  # 填写需要调用的模型名称
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "图里有什么"
},
{
"type": "image_url",
"image_url": {
"url" : "https://img1.baidu.com/it/u=1369931113,3388870256&fm=253&app=138&size=w931&n=0&f=JPEG&fmt=auto?sec=1703696400&t=f3028c7a1dca43a080aeb8239f09cc2f"
}
}
]
}
]
)
print(response.choices[0].message)

上传图片 Base64

import base64
from zhipuai import ZhipuAI
img_path = "/Users/YourCompluter/xxxx.jpeg"
with open(img_path, 'rb') as img_file:
img_base = base64.b64encode(img_file.read()).decode('utf-8')
client = ZhipuAI(api_key="YOUR API KEY") # 填写您自己的APIKey
response = client.chat.completions.create(
model="glm-4v-plus",  # 填写需要调用的模型名称
messages=[
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": img_base
}
},
{
"type": "text",
"text": "请描述这个图片"
}
]
}
]
)
print(response.choices[0].message)

多轮图片对话

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="YOUR API KEY") # 填写您自己的APIKey
response = client.chat.completions.create(
model="glm-4v-plus",  # 填写需要调用的模型名称
messages=[
{
"content": [
{
"image_url": {
"url": "https://cdn.bigmodel.cn/xxxxxx.png"
},
"type": "image_url"
},
{
"text": "图中有什么",
"type": "text"
}
],
"role": "user"
},
{
"content": [
{
"text": "这是一幅描绘自然风景的画，展现了一片宁静的湖泊，湖水呈现出深浅不一的蓝绿色调。湖边长着一棵盛开的樱花树，粉白色的花朵在阳光下显得格外鲜艳。树下有一位身穿蓝色衣服的人坐在船上，似乎正在享受这美好的时光。\n\n背景是连绵起伏的山脉，山体被绿色的植被覆盖，山顶则被云雾缭绕，增添了几分神秘感。远处还可以看到一座小亭子，它坐落在湖边的岩石上，与周围的自然环境和谐相融。\n\n整个画面给人一种宁静、和谐的感觉，仿佛置身于一个世外桃源之中。",
"type": "text"
}
],
"role": "assistant"
},
{
"content": [
{
"image_url": {
"url": "https://cdn.bigmodel.cn/xxxxxxx.jpeg"
},
"type": "image_url"
},
{
"text": "这个图与上面图有什么不一样",
"type": "text"
}
],
"role": "user"
},
{
"content": [
{
"text": "第一张图和第二张图在画面内容、构图、色彩等方面都有很大的不同，形成鲜明的对比。\n\n1.第一张图是风景画，主要描绘了自然风景，如樱花树、湖泊、山脉等，色彩丰富，充满春天的气息，而第二张图是描绘长城在冬季的风景照片，长城在白雪覆盖的山脉中蜿蜒盘旋，整体色调偏冷，给人一种寒冷、宁静的感觉。\n\n2.构图上，第一张图采用对称式构图，以樱花树为中心，两侧的景物相互呼应，形成平衡和谐的画面效果，第二张图则采用对角线构图，长城作为视觉引导线，引导观众的视线穿越整个画面，增加画面的深度和动态感。\n\n整体来看，这两张图在画面内容、色彩、构图和氛围上都呈现出明显的对比，一张是充满生机和色彩的春日风景画，另一张是宁静而神秘的冬日长城风景照。",
"type": "text"
}
],
"role": "assistant"
},
{
"content": [
{
"image_url": {
"url": "https://cdn.bigmodel.cn/xxxxxxx.jpeg"
},
"type": "image_url"
},
{
"text": "这个图与上一张图有什么区别",
"type": "text"
}
],
"role": "user"
}
]
)
print(response.choices[0].message)

响应示例

{
"created": 1703487403,
"id": "8239375684858666781",
"model": "glm-4v-plus",
"request_id": "8239375684858666781",
"choices": [
{
"finish_reason": "stop",
"index": 0,
"message": {
"content": "图中有一片蓝色的海和蓝天，天空中有白色的云朵。图片的右下角有一个小岛或者岩石，上面长着深绿色的树木。",
"role": "assistant"
}
}
],
"usage": {
"completion_tokens": 37,
"prompt_tokens": 1037,
"total_tokens": 1074
}
}

流式输出

响应参数

参数名称	类型	参数说明
id	String	任务 ID
created	Long	请求创建时间，是以秒为单位的 Unix 时间戳。
choices	List	当前对话的模型输出内容
index	Integer	结果下标
finish_reason	String	模型推理终止的原因。`stop`代表推理自然结束或触发停止词。`length` 代表到达 tokens 长度上限。`sensitive` 代表模型推理内容被安全审核接口拦截。`network_error` 代表模型推理异常。
delta	Object	模型增量返回的文本信息
role	String	当前对话的角色，目前默认为 assistant（模型）
content	String	当前对话的内容
usage	Object	本次模型调用的 tokens 数量统计
prompt_tokens	Integer	用户输入的 tokens 数量
completion_tokens	Integer	模型输出的 tokens 数量
total_tokens	Integer	总 tokens 数量
content_filter	List	返回内容安全的相关信息
role	String	安全生效环节，包括`role = assistant` 模型推理，`role = user` 用户输入，`role = history` 历史上下文
level	Integer	严重程度 level 0-3，level 0 表示最严重，3 表示轻微

请求示例

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 请填写您自己的APIKey
response = client.chat.completions.create(
model="glm-4v-plus",  # 填写需要调用的模型名称
messages=[
{
"role": "user", 
"content": [
{
"type": "image_url",
"image_url": {
"url" : "sfile.chatglm.cn/testpath/xxxx.jpg"
}
},
{
"type": "text",
"text": "图里有什么"
}
]
},
],
stream=True,
)
for chunk in response:
print(chunk.choices[0].delta)

响应示例

data: {"id":"8305986882425703351","created":1705476637,"model":"glm-4v-plus","choices":[{"index":0,"delta":{"role":"assistant","content":"下"}}]}
data: {"id":"8305986882425703351","created":1705476637,"model":"glm-4v-plus","choices":[{"index":0,"delta":{"role":"assistant","content":"角"}}]}
data: {"id":"8305986882425703351","created":1705476637,"model":"glm-4v-plus","choices":[{"index":0,"delta":{"role":"assistant","content":"有一个"}}]}
... ...
data: {"id":"8305986882425703351","created":1705476637,"model":"glm-4v-plus","choices":[{"index":0,"delta":{"role":"assistant","content":"树木"}}]}
data: {"id":"8305986882425703351","created":1705476637,"model":"glm-4v-plus","choices":[{"index":0,"delta":{"role":"assistant","content":"。"}}]}
data: {"id":"8305986882425703351","created":1705476637,"model":"glm-4v-plus","choices":[{"index":0,"finish_reason":"stop","delta":{"role":"assistant","content":""}}],"usage":{"prompt_tokens":1037,"completion_tokens":37,"total_tokens":1074}}

© 版权声明

文章版权归 AI分享圈所有，未经允许请勿转载。

相关文章

必须了解的7款AI音频制作工具，用于增强和生成声音、语音及音乐

必须了解的7款AI音频制作工具，用于增强和生成声音、语音及音乐

1年前

057.3K

AI 浪潮下的深层变革：重塑商业、工作与创意的未来版图

AI 浪潮下的深层变革：重塑商业、工作与创意的未来版图

1年前

054.3K

谷歌发布 Vertex AI RAG 引擎：一站式构建可靠的检索增强生成应用

谷歌发布 Vertex AI RAG 引擎：一站式构建可靠的检索增强生成应用

1年前

051.9K

十方融海小智AI 已跃居GitHub全球排行榜第一！

十方融海小智AI 已跃居GitHub全球排行榜第一！

1年前

062.6K

暂无评论

您必须登录才能参与评论！

none

暂无评论...