Skill File

sandeco-token-reduce-ollama

Name: sandeco-token-reduce-ollama
Author: sandeco

Comprime tokens de prompts usando reescrita generativa com um modelo Ollama local (default: qwen3:8b) para reduzir custo e latencia ao enviar ao Claude. Aceita texto direto, arquivo .txt ou PDF como entrada: extrai o PDF para markdown (via pymupdf4llm), salva o .md ao lado do PDF e comprime o markdown. Use esta skill sempre que o usuario pedir para comprimir/reduzir/economizar tokens E mencionar Ollama, qwen, qwen3, llm local, modelo local, rodar localmente, "sem BERT", ou quiser compressao via LLM generativo em vez de classificador. Tambem use quando o usuario quiser pre-processar contexto localmente (incluindo PDFs) antes de enviar ao Claude usando Ollama. Triggers: "comprimir com ollama", "comprimir localmente", "ollama compress", "qwen3", "qwen", "reescrever com ollama", "resumir com llm local", "compressao generativa", "pdf com ollama", "ler pdf com ollama", "inicializar token-reduce-ollama", "init token-reduce-ollama".

sandeco731 starsApr 16, 2026

Occupation
Categories: Framework Internals

Skill Content

Comprime texto reescrevendo generativamente com um modelo Ollama local. Diferente do LLMLingua-2 (que classifica token a token com BERT/XLM-RoBERTa), aqui um LLM generativo reescreve o texto de forma mais concisa preservando o significado.

Default: qwen3:8b (5 GB, 40K de contexto, PT-BR forte).

Diferencas para a skill `sandeco-token-reduce`

Aspecto	LLMLingua-2 (BERT)	Ollama (LLM generativo)
Como funciona	Classifica/mantem tokens exatos	Reescreve o texto
Palavras preservadas	Sim (palavras do original)	Nao (pode parafrasear)
Fluidez	Menor (texto cortado)	Maior (texto natural)
Taxa exata	Sim (controle fino via rate)	Aproximada (LLM nem sempre obedece)
Velocidade	Muito rapida (CPU/GPU)	Depende do hardware e do modelo
Dependencia	pip: llmlingua

Related Skills

sandeco-token-reduce-ollama | Skills Pool

Skill File

sandeco-token-reduce-ollama

sandeco731 starsApr 16, 2026

Occupation
Categories: Framework Internals

Skill Content

Default: qwen3:8b (5 GB, 40K de contexto, PT-BR forte).

Diferencas para a skill `sandeco-token-reduce`

Aspecto	LLMLingua-2 (BERT)	Ollama (LLM generativo)
Como funciona	Classifica/mantem tokens exatos	Reescreve o texto
Palavras preservadas	Sim (palavras do original)	Nao (pode parafrasear)
Fluidez	Menor (texto cortado)	Maior (texto natural)
Taxa exata	Sim (controle fino via rate)	Aproximada (LLM nem sempre obedece)
Velocidade	Muito rapida (CPU/GPU)	Depende do hardware e do modelo
Dependencia	pip: llmlingua

Related Skills

sandeco-token-reduce-ollama/
├── SKILL.md          ← este arquivo
├── scripts/
│   ├── setup.py      ← inicializacao (cria .venv, instala libs, puxa modelo Ollama)
│   └── compress.py   ← compressao via Ollama (requer init)
└── .venv/            ← criado pelo setup.py (NAO distribuir)

python "<skill-dir>/scripts/compress.py" --text "..." --rate 0.4

python "<skill-dir>/scripts/compress.py" [opcoes]

python "<skill-dir>/scripts/compress.py" --text "texto longo aqui" --rate 0.4

python "<skill-dir>/scripts/compress.py" --file caminho/para/arquivo.txt --rate 0.4

python "<skill-dir>/scripts/compress.py" --file documento.pdf --rate 0.4

python "<skill-dir>/scripts/compress.py" --file entrada.txt --rate 0.4 --output comprimido.txt

python "<skill-dir>/scripts/compress.py" --file entrada.txt --rate 0.4 --ask "Resuma este texto"

python "<skill-dir>/scripts/compress.py" --file entrada.txt --rate 0.4 --ollama-model qwen3:14b

python "<skill-dir>/scripts/compress.py" --file entrada.txt --rate 0.4 --json

Parametro	Padrao	Descricao
`--text`	—	Texto passado diretamente (mutuamente exclusivo com --file)
`--file`	—	Caminho para arquivo de texto
`--rate`	`0.4`	Fracao alvo de tokens (aproximada em compressao generativa)
`--output`	—	Salva texto comprimido neste arquivo
`--json`	`false`	Saida em JSON estruturado
`--ollama-model`	`qwen3:8b`	Modelo Ollama a usar
`--ollama-host`	`http://localhost:11434`	URL do daemon Ollama
`--ask`	—	Pergunta a enviar ao Claude com o contexto comprimido
`--model`	`claude-sonnet-4-6`	Modelo Claude (so usado com --ask)
`--max-tokens`	`4096`	Max tokens na resposta do Claude

{
  "compression": {
    "compressed_prompt": "texto comprimido...",
    "origin_tokens": 312,
    "compressed_tokens": 124,
    "ratio": 2.52,
    "saving": 188,
    "rate_requested": 0.4,
    "model": "qwen3:8b"
  },
  "pdf": {
    "source_pdf": "/caminho/para/doc.pdf",
    "pages": 12,
    "markdown_path": "/caminho/para/doc.md",
    "markdown_chars": 24580
  },
  "claude": {
    "answer": "resposta do Claude...",
    "model": "claude-sonnet-4-6",
    "input_tokens": 150,
    "output_tokens": 200
  }
}

sandeco-token-reduce-ollama

Diferencas para a skill `sandeco-token-reduce`

sandeco-token-reduce-ollama

Diferencas para a skill `sandeco-token-reduce`

Estrutura

IMPORTANTE: Pre-requisito Ollama

Auto-configuracao (self-bootstrap)

Quando o usuario pedir para "inicializar", "configurar" ou "init" a skill:

Como comprimir

So comprimir (texto direto)

Comprimir a partir de arquivo

Comprimir um PDF (extrai para markdown primeiro)

Comprimir e salvar resultado em arquivo

Comprimir e enviar ao Claude com uma pergunta

Trocar o modelo Ollama

Saida JSON (para consumo programatico)

Parametros do compress.py

Guia de taxas de compressao

Formato da saida JSON

Notas tecnicas

Pre-processamento automatico

Instrucoes ao modelo (system prompt)

Quando usar esta skill vs `sandeco-token-reduce`

Pytorch Patterns

Regex Vs Llm Structured Text

Effect

Flags

WPF to WinUI 3 Migration Skill

At Dispatch V2

sandeco-token-reduce-ollama

Diferencas para a skill sandeco-token-reduce

sandeco-token-reduce-ollama

Diferencas para a skill sandeco-token-reduce

Estrutura

IMPORTANTE: Pre-requisito Ollama

Auto-configuracao (self-bootstrap)

Quando o usuario pedir para "inicializar", "configurar" ou "init" a skill:

Como comprimir

So comprimir (texto direto)

Comprimir a partir de arquivo

Comprimir um PDF (extrai para markdown primeiro)

Comprimir e salvar resultado em arquivo

Comprimir e enviar ao Claude com uma pergunta

Trocar o modelo Ollama

Saida JSON (para consumo programatico)

Parametros do compress.py

Guia de taxas de compressao

Formato da saida JSON

Notas tecnicas

Pre-processamento automatico

Instrucoes ao modelo (system prompt)

Quando usar esta skill vs sandeco-token-reduce

Pytorch Patterns

Regex Vs Llm Structured Text

Effect

Flags

WPF to WinUI 3 Migration Skill

At Dispatch V2

Diferencas para a skill `sandeco-token-reduce`

Diferencas para a skill `sandeco-token-reduce`

Quando usar esta skill vs `sandeco-token-reduce`