Multimodal Medical Imaging Analysis

The Multimodal Medical Imaging Analysis Skill leverages state-of-the-art Vision-Language Models (VLMs) like Gemini 1.5 Pro and GPT-4o to interpret medical imagery alongside clinical text.

When to Use This Skill

When you need a preliminary screening of medical images.
When correlating visual findings with textual clinical notes.
To generate structured reports (DICOM-SR-like) from raw images.

Core Capabilities

Anomaly Detection: Identify potential pathologies in X-rays, CTs, etc.
Report Generation: Draft radiology reports in standard formats.
VQA (Visual Question Answering): Answer specific questions about an image (e.g., "Is there a fracture in the left femur?").

Workflow

Multimodal Medical Imaging Analysis

The Multimodal Medical Imaging Analysis Skill leverages state-of-the-art Vision-Language Models (VLMs) like Gemini 1.5 Pro and GPT-4o to interpret medical imagery alongside clinical text.

When to Use This Skill

When you need a preliminary screening of medical images.
When correlating visual findings with textual clinical notes.
To generate structured reports (DICOM-SR-like) from raw images.

Core Capabilities

Anomaly Detection: Identify potential pathologies in X-rays, CTs, etc.
Report Generation: Draft radiology reports in standard formats.
VQA (Visual Question Answering): Answer specific questions about an image (e.g., "Is there a fracture in the left femur?").

Multimodal Medical Imaging

Multimodal Medical Imaging Analysis

When to Use This Skill

Core Capabilities

Workflow

Multimodal Medical Imaging

Multimodal Medical Imaging Analysis

When to Use This Skill

Core Capabilities

Workflow

Example Usage

Gemini

Openai Whisper

Clawhub

Sherpa Onnx Tts

Openai Whisper Api

Model Usage