当用户提供一份中文文案或文本文件,例如 examples/raw_scripts/sample_script_01.txt,希望把它拆成多张可用于 Nano Banana 生图的分镜输入时使用。此 skill 负责判断需要生成几张图、每张图的镜头作用、风格模板、画面元素、中英文提示词、负面提示词,以及每张图对应的标准知识句。适用于“帮我写 Nano Banana 提示词”“把文案拆成图片分镜”“给我多张图的生图输入”“做成剪映式图片分镜视频”等请求。
当用户已经决定走“图片分镜视频”路线,并希望:
如果用户要的是最终剪辑、字幕、配音、导出成片,先完成本 skill 的分镜提示词包,再交给 storyboard-video-finisher。
输出的不是普通摘要,而是一个“生图执行包”:
这里最重要的是第 8 点:
后期准确叠字 不是辅助备注,也不是简版标题。
它应该是该图的标准文本源,后续默认直接用于:
先读完整文案,再决定图数,不要机械地“一段一张”。
默认建议:
0-150 字: 张3-5150-350 字:5-8 张350-700 字:8-12 张700+ 字:10-16 张流程型、步骤型、模块型文案可以适当多一两张。 解释重复较多时要主动合并。
先找文案里最明确回答下面问题的那句话:
如果有,就必须做成第一张图,并定义为:
典型触发语包括:
如果我只记一个图一张图看懂主链路核心流程这节到底学什么如果文本第一行本身就是点题句,就默认把它作为首图标题句。
每张图先分配镜头模板,再写提示词。默认只在这 4 类中选:
解释镜头强调镜头记忆镜头转场镜头整条视频最多使用 2-4 种风格。
主风格应占 50%+。
默认推荐组合:
黑白手绘讲解黑底高对比标题卡记忆板书/口诀图不要让每张图都完全不同。
这是本 skill 最重要的约束之一。
图里允许有字,但不依赖模型 100% 准确写长句。
后期准确叠字 必须作为标准文本源输出。
每张图都要输出一条完整、准确、可独立成立的知识句。
它应尽量沿用原文中已经成熟的表达,不要为了“短”而损失信息。
默认目标不是“做成短标题”,而是“做成后期可直接复用的标准知识句”。
除非用户明确要求压缩,否则不要把原文级表达缩成摘要句。
除第一行原始问题外,原文中的铺垫句、类比句、定义句、边界句也默认都重要,不要无故丢失。
它们可以被重组到不同图片里,但每个自然段或关键句,至少要被某一张图的 后期准确叠字 覆盖。
如果某句不适合单独成图,就把它并入最相邻、最相关的那张图的 后期准确叠字,不要默默删除。
正确例子:
Intake:用户消息或外部触发进入Context Assembly:把历史记录、工具描述、用户当前输入拼成完整上下文Tools:如需外部数据(查天气、调 API),执行后结果回注到上下文错误例子:
Intake:接收输入Tools:回注结果像 Tools:查外部数据,再把结果回注 这种“意思对但信息缩水”的句子,也不能当 后期准确叠字。
默认优先让 Nano Banana 生成人物、场景、构图和风格。
如果要求图里带文字:
确保所有中文字符准确、清晰、自然,不要错字。但仍然要同时输出 后期准确叠字,方便后续接管。
这种情况下,提示词不能只写抽象场景。 每张讲解图默认要包含:
同时仍保留 后期准确叠字,作为后续视频阶段的标准文本源。
image_idscene_goalsource_linesshot_typestylemust_showavoidtext_in_imageprompt_cnprompt_ennegative_promptpost_text_note其中:
text_in_image:告诉模型图里建议出现哪些字post_text_note:给后期准确叠字、旁白、字幕复用的标准知识句,默认应保留原文级完整信息,不做摘要化压缩默认输出“直贴 Nano 版”。
先给很短的总览,然后逐张输出独立可复制块。
逐张结构默认如下:
## 图 1
中文输入:
```text
...
英文增强:
...
负面词:
...
后期准确叠字:
...
## 提示词写法要求
### 中文输入
适合直接复制给 Nano Banana:
- 短句
- 短块
- 少修饰
- 明确构图和主题
如果涉及图内中文,末尾默认附加:
- `确保所有中文字符准确、清晰、自然,不要错字。`
### 英文增强
补充这些要素:
- subject
- scene
- composition
- style
- lighting
- mood
- camera distance
- text amount
### 负面词
优先限制:
- wrong text
- gibberish text
- dense text
- cluttered layout
- watermark
- logo
- blurry face
- distorted perspective
## 默认执行原则
- 先回答“这条视频到底在学什么”,再拆细节图
- 图片服务于讲解,不代替讲解
- 风格要受控,不要乱
- `后期准确叠字` 默认就是后续视频的标准文本源
- 不要把 `后期准确叠字` 再二次摘要成更短版本
- 如果原文里已有成熟定义句,优先直接沿用原句
- 如果用户没有特别说明,默认优先保证标准知识句完整
- txt 第一行固定作为图 1 的核心问题
- 除第一行外,原文默认尽量全保留;允许重组,不允许无故遗漏
- `prompt_cn` 可以为了画面质量适度精炼,但 `后期准确叠字` 要尽量保留原文信息密度