使用智谱AI的GLM-4V-Flash免费多模态API理解图片内容。当用户需要理解图片内容、描述图片、识别图中物体时使用此skill。
这个skill用于理解图片内容,使用智谱AI的GLM-4V-Flash免费多模态API。
当用户需要理解图片内容时使用此skill,例如:
用户需要:
ZHIPU_API_KEYskill提供了 scripts/analyze_image.py 脚本,可以直接调用:
python scripts/analyze_image.py <图片路径> "<问题>"
参数:
<图片路径>: 图片文件路径(建议使用jpg格式)<问题>: 要问的问题,如"这张图片里有什么"如果没有脚本,可以直接用Python调用智谱API:
from zhipuai import ZhipuAI
client = ZhipuAI(api_key="你的API Key")
response = client.chat.completions.create(
model="glm-4v",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "这张图片里有什么?请详细描述。"},
{"type": "image_url", "image_url": {"url": "图片URL或base64"}}
]
}
]
)
print(response.choices[0].message.content)
返回图片内容的详细描述,包括: