Name: Gemini Vision
Author: kienhaminh

搵技能.../

Gemini Vision | Skills Pool

# Enable Vertex AI
export GEMINI_USE_VERTEX=true
export VERTEX_PROJECT_ID=your-gcp-project-id
export VERTEX_LOCATION=us-central1  # Optional, defaults to us-central1

GEMINI_USE_VERTEX=true
VERTEX_PROJECT_ID=your-gcp-project-id
VERTEX_LOCATION=us-central1

# Analyze a local image
python scripts/analyze-image.py path/to/image.jpg "What's in this image?"

# Analyze from URL
python scripts/analyze-image.py https://example.com/image.jpg "Describe this"

# Specify model
python scripts/analyze-image.py image.jpg "Caption this" --model gemini-2.5-pro

python scripts/analyze-image.py image.jpg "Detect all objects" --model gemini-2.0-flash

python scripts/analyze-image.py img1.jpg img2.jpg "What's different between these?"

# Upload file
python scripts/upload-file.py path/to/large-image.jpg

# Use uploaded file
python scripts/analyze-image.py file://file-id "Caption this"

# List uploaded files
python scripts/manage-files.py list

# Get file info
python scripts/manage-files.py get file-id

# Delete file
python scripts/manage-files.py delete file-id

crop_unit = floor(min(width, height) / 1.5)
tiles = (width / crop_unit) × (height / crop_unit)
total_tokens = tiles × 258

Gemini Vision

Gemini Vision API Skill

Quick Start

Prerequisites

API Key Configuration

Option 1: Google AI Studio (Default)

Gemini Vision

Gemini Vision API Skill

Quick Start

Prerequisites

API Key Configuration

Option 1: Google AI Studio (Default)

Option 2: Vertex AI

Core Capabilities

Image Analysis

Advanced Features (Model-Specific)

Supported Formats

Available Models

Usage Examples

Basic Image Analysis

Object Detection (2.0+)

Multi-Image Comparison

File Upload (for large files or reuse)

File Management

Token Costs

Rate Limits

Best Practices

Image Quality

Prompting

File Management

Security

Error Handling

Additional Resources

Implementation Guide

Scripts Overview

Openai Whisper

Voice Call

Prose

Clawhub

Sherpa Onnx Tts

Openai Whisper Api