安防摄像头视频 VL 模型微调数据集标注工具。用于从安防摄像头视频中提取关键帧、分析视频内容、生成结构化标注(含环境/人物/行为/风险描述),并输出符合 dataset.jsonl 格式的微调训练数据。Use when 用户需要对安防摄像头视频进行数据标注、生成 VL 模型训练数据集、处理 /root/hair-cam 目录下的视频数据,或提及 "hair-cam"、"数据标注"、"视频标注"、"VL模型微调"。
对安防摄像头拍摄的视频进行帧提取、视觉分析、结构化标注,输出 dataset.jsonl 格式的 VL 模型微调数据集。
python3 <skill>/scripts/extract_frames.py \
--data-dir <视频目录> \
--output-dir <帧输出目录> \
--fps 0.5 \
--max-frames 4
manifest.json 记录每个视频的元信息和帧路径对每个视频:
read 工具读取帧图片(支持 jpg/png)海尔摄像头-1男1女-坐-2 → 品牌=海尔摄像头, 1男1女, 行为=坐)标注 JSON 结构:
{
"title": "场景标题",
"subtitle": "场景副标题",
"description": "详细描述(≥50字,含环境、人物外貌、行为姿态)",
"labels": ["system_suggest_X", ...],
"risk": {
"level": "none|low|medium|high",
"description": "风险描述"
},
"simple_description": "简练描述(≤20汉字)"
}
annotations.json,格式:[
{"video": "文件名.mp4", "annotation": { ...标注JSON... }},
...
]
python3 <skill>/scripts/build_jsonl.py \
--annotations annotations.json \
--video-dir <视频目录> \
--output dataset.jsonl
dataset.jsonlreferences/system-prompt.mdreferences/labels-reference.md