Name: Openakita Skills Image Understander
Author: openakita

搜索技能.../

Openakita Skills Image Understander | Skills Pool

set OPENAI_API_KEY=sk-your-api-key-here

python scripts/main.py -i photo.jpg -a sk-your-key

# 描述图片
python scripts/main.py -i photo.jpg -m describe

# 提取文字（OCR）
python scripts/main.py -i screenshot.png -m ocr

# 识别物体
python scripts/main.py -i photo.jpg -m objects

# 图片问答
python scripts/main.py -i photo.jpg -m qa -q "这个图片里有什么？"

python scripts/main.py \
  --image PATH_TO_IMAGE \
  --mode describe|ocr|objects|qa \
  --api-key YOUR_API_KEY \
  --prompt "你的问题" \
  --output OUTPUT.json \
  --verbose

{
  "mode": "describe",
  "image": "photo.jpg",
  "result": "A beautiful sunset over the ocean with orange and purple sky...",
  "objects": [],
  "text": ""
}

功能	命令	说明
图片描述	`-m describe`	详细描述图片内容
文字提取	`-m ocr`	提取图片中的所有文字
物体识别	`-m objects`	识别并列出图片中的物体
图片问答	`-m qa`	针对图片回答问题

功能	命令	说明
图片描述	`-m describe`	详细描述图片内容
文字提取	`-m ocr`	提取图片中的所有文字
物体识别	`-m objects`	识别并列出图片中的物体
图片问答	`-m qa`	针对图片回答问题

Openakita Skills Image Understander

图片理解技能 (Image Understander)

📋 概述

🚀 功能

📦 安装

🔧 配置

Openakita Skills Image Understander

图片理解技能 (Image Understander)

📋 概述

🚀 功能

📦 安装

🔧 配置

方式一：环境变量

方式二：命令行传入

📖 使用方法

基本使用

完整参数

📁 输出示例

⚠️ 注意事项

Songsee

Video Frames

Gifgrep

Qqbot Media

Camsnap

Openai Whisper Api