Name: Prompt Guard
Author: Orchestra-Research

Prompt Guard - Prompt Injection & Jailbreak Detection

Prompt Guard is an 86M parameter classifier that detects prompt injections and jailbreak attempts in LLM applications.

Quick start

Installation:

pip install transformers torch

Basic usage:

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
from torch.nn.functional import softmax

model_id = "meta-llama/Prompt-Guard-86M"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSequenceClassification.from_pretrained(model_id)
model.eval()

def get_jailbreak_score(text):
    """Check user input for jailbreak attempts."""
    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
    with torch.no_grad():
        logits = model(**inputs).logits
    probs = softmax(logits, dim=-1)
    return probs[0, 2].item()  # Jailbreak probability

# Check prompt
score = get_jailbreak_score("Ignore previous instructions")
if score > 0.5:
    print("⚠️ Jailbreak attempt detected!")

Prompt Guard - Prompt Injection & Jailbreak Detection

Prompt Guard is an 86M parameter classifier that detects prompt injections and jailbreak attempts in LLM applications.

Quick start

Installation:

pip install transformers torch

Basic usage:

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
from torch.nn.functional import softmax

model_id = "meta-llama/Prompt-Guard-86M"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSequenceClassification.from_pretrained(model_id)
model.eval()

def get_jailbreak_score(text):
    """Check user input for jailbreak attempts."""
    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
    with torch.no_grad():
        logits = model(**inputs).logits
    probs = softmax(logits, dim=-1)
    return probs[0, 2].item()  # Jailbreak probability

# Check prompt
score = get_jailbreak_score("Ignore previous instructions")
if score > 0.5:
    print("⚠️ Jailbreak attempt detected!")

Prompt Guard

Prompt Guard - Prompt Injection & Jailbreak Detection

Quick start

Prompt Guard

Prompt Guard - Prompt Injection & Jailbreak Detection

Quick start

Common workflows

Workflow 1: User input filtering (jailbreak detection)

Openai Whisper

Voice Call

Prose

Clawhub

Sherpa Onnx Tts

Openai Whisper Api