Skill ファイル

Multimodal Image Studio

Name: Multimodal Image Studio
Author: WuChaseSea

当主要输入或输出涉及图像生成、图像编辑或图像风格迁移时，随时使用此技能。这意味着适用于用户希望执行以下操作的任何任务：根据简短文本描述或粗略草图生成新图像；对现有照片进行语义编辑（例如，添加对象、更改表情、修改背景）；或将参考图像的艺术风格迁移到内容图像上。特别是当用户提及绘制、生成、重塑或编辑视觉内容时触发——即使是随口提及（比如“把这家伙变黄”或“把我的照片变成3D盲盒”）。交付成果必须是图像文件。当主要交付成果是纯文本分析、文档创建或纯数据处理时，请勿触发此技能。

WuChaseSea0 スター2026/04/08

職業
カテゴリ: 営業・マーケティング

スキル内容

重要提示： > 本技能需要通过 Python 执行器运行本地模型。如果本地不存在独立的脚本文件，请直接使用你的 Python 代码执行工具（如 execute_python_code 或类似工具）提取并运行本文档底部的【完整执行脚本】。

输出要求 (Requirements for Outputs)

所有生成的图像

视觉质量与约束

分辨率：除非另有说明，否则默认输出必须为 512x512。
反向提示词 (Negative Prompting)：必须始终包含强大的反向提示词（例如：“丑陋, 变形, 模糊, 糟糕的解剖结构, 文字, 水印”），以防止张量对齐报错。
随机种子 (Seed)：除非用户明确要求可复现性，否则请使用随机种子。

图像生成与编辑工作流

概述

本技能使用两阶段异构流水线：

Qwen3-VL：充当“语义大脑”，用于理解输入并扩写提示词。
Z-Image（基于 OpenVINO）：充当“画师”来渲染最终图像。

Multimodal Image Studio

WuChaseSea0 スター2026/04/08

職業
カテゴリ: 営業・マーケティング

スキル内容

重要提示： > 本技能需要通过 Python 执行器运行本地模型。如果本地不存在独立的脚本文件，请直接使用你的 Python 代码执行工具（如 execute_python_code 或类似工具）提取并运行本文档底部的【完整执行脚本】。

输出要求 (Requirements for Outputs)

所有生成的图像

视觉质量与约束

分辨率：除非另有说明，否则默认输出必须为 512x512。
反向提示词 (Negative Prompting)：必须始终包含强大的反向提示词（例如：“丑陋, 变形, 模糊, 糟糕的解剖结构, 文字, 水印”），以防止张量对齐报错。
随机种子 (Seed)：除非用户明确要求可复现性，否则请使用随机种子。

图像生成与编辑工作流

概述

本技能使用两阶段异构流水线：

Qwen3-VL：充当“语义大脑”，用于理解输入并扩写提示词。
Z-Image（基于 OpenVINO）：充当“画师”来渲染最终图像。

Multimodal Image Studio

输出要求 (Requirements for Outputs)

所有生成的图像

视觉质量与约束

图像生成与编辑工作流

概述

Multimodal Image Studio

输出要求 (Requirements for Outputs)

所有生成的图像

视觉质量与约束

图像生成与编辑工作流

概述

极其重要：必须使用 VLM 进行提示词扩写

完整执行脚本 (Runnable Python Script)

Taskflow Inbox Triage

Accessibility

Open a Pull Request

Investor Materials

Continuous Agent Loop

Configure Ecc