当主要输入或输出涉及图像生成、图像编辑或图像风格迁移时,随时使用此技能。这意味着适用于用户希望执行以下操作的任何任务:根据简短文本描述或粗略草图生成新图像;对现有照片进行语义编辑(例如,添加对象、更改表情、修改背景);或将参考图像的艺术风格迁移到内容图像上。特别是当用户提及绘制、生成、重塑或编辑视觉内容时触发——即使是随口提及(比如“把这家伙变黄”或“把我的照片变成3D盲盒”)。交付成果必须是图像文件。当主要交付成果是纯文本分析、文档创建或纯数据处理时,请勿触发此技能。
重要提示: > 本技能需要通过 Python 执行器运行本地模型。 如果本地不存在独立的脚本文件,请直接使用你的 Python 代码执行工具(如
execute_python_code或类似工具)提取并运行本文档底部的【完整执行脚本】。
本技能使用两阶段异构流水线:
在将内容发送给扩散模型之前,务必通过 Qwen3-VL 扩写用户的短文本。 扩散模型需要的是高度描述性的标签,而不是对话式的日常短句。
Action Required for Agent: 当用户触发此技能时,请将用户提供的信息(提示词、图片路径)代入以下 Python 模板中,并直接执行这段代码。代码已包含模型自动下载与加载逻辑。
import os
from pathlib import Path
import torch
from transformers import AutoProcessor
from optimum.intel.openvino import OVStableDiffusionPipeline, OVModelForCausalLM
# ==========================================
# 1. 检查并下载 ModelScope 模型
# ==========================================
vlm_model_dir = Path("Qwen3-VL-4B-Instruct-int4-ov")
if not vlm_model_dir.exists():
from modelscope import snapshot_download
snapshot_download("snake7gun/Qwen3-VL-4B-Instruct-int4-ov", local_dir=str(vlm_model_dir))
print(f"VLM模型已下载到: {vlm_model_dir}")