Name: Reading Uploaded Files
Author: SeifBenayed

Reading Uploaded Files | Skills Pool

stat -c '%s bytes, %y' /mnt/user-data/uploads/report.pdf
file /mnt/user-data/uploads/report.pdf

Extension	First move	Dedicated skill
`.pdf`	Content inventory (see PDF section)	`/mnt/skills/public/pdf-reading/SKILL.md`
`.docx`	`pandoc` to markdown	`/mnt/skills/public/docx/SKILL.md`
`.doc` (legacy)	Convert to `.docx` first — pandoc cannot read it	`/mnt/skills/public/docx/SKILL.md`
`.xlsx`, `.xlsm`	`openpyxl` sheet names + head	`/mnt/skills/public/xlsx/SKILL.md`
`.xls` (legacy)	`pd.read_excel(engine="xlrd")` — openpyxl rejects it	`/mnt/skills/public/xlsx/SKILL.md`
`.ods`	`pd.read_excel(engine="odf")` — openpyxl rejects it	`/mnt/skills/public/xlsx/SKILL.md`
`.pptx`	`python-pptx` slide count	`/mnt/skills/public/pptx/SKILL.md`
`.ppt` (legacy)	Convert to `.pptx` first — python-pptx rejects it	`/mnt/skills/public/pptx/SKILL.md`
`.csv`, `.tsv`	`pandas` with `nrows`	— (below)
`.json`, `.jsonl`	`jq` for structure	— (below)
`.jpg`, `.png`, `.gif`, `.webp`	Already in your context as vision input	— (below)
`.zip`, `.tar`, `.tar.gz`	List contents, do not auto-extract	— (below)
`.gz` (single file)	`zcat \| head` — no manifest to list	— (below)
`.epub`, `.odt`	`pandoc` to plain text	— (below)
`.rtf`	`pandoc` (needs 3.1.7+) or soffice via docx skill	— (below)
`.txt`, `.md`, `.log`, code files	`wc -c` then `head` or full `cat`	— (below)
Unknown	`file` then decide	—

pdfinfo /mnt/user-data/uploads/report.pdf
pdftotext -f 1 -l 1 /mnt/user-data/uploads/report.pdf - | head -20

from pypdf import PdfReader
r = PdfReader("/mnt/user-data/uploads/report.pdf")
print(f"{len(r.pages)} pages")
print(r.pages[0].extract_text()[:2000])

pandoc /mnt/user-data/uploads/memo.docx -t markdown | head -200

from openpyxl import load_workbook
wb = load_workbook("/mnt/user-data/uploads/data.xlsx", read_only=True)
print("Sheets:", wb.sheetnames)
ws = wb.active
for row in ws.iter_rows(max_row=5, values_only=True):
    print(row)

import pandas as pd
df = pd.read_excel("/mnt/user-data/uploads/old.xls", engine="xlrd", nrows=5)

import pandas as pd
df = pd.read_excel("/mnt/user-data/uploads/data.ods", engine="odf", nrows=5)

from itertools import islice
from pptx import Presentation
p = Presentation("/mnt/user-data/uploads/deck.pptx")
print(f"{len(p.slides)} slides")
for i, slide in enumerate(islice(p.slides, 3), 1):
    texts = [s.text for s in slide.shapes if s.has_text_frame]
    print(f"Slide {i}:", " | ".join(t for t in texts if t))

import pandas as pd
df = pd.read_csv("/mnt/user-data/uploads/data.csv", nrows=5)
print(df)
print()
print(df.dtypes)

wc -l /mnt/user-data/uploads/data.csv

df = pd.read_csv("/mnt/user-data/uploads/data.csv")
print(df.describe())

jq 'type' /mnt/user-data/uploads/data.json
jq 'if type == "array" then length elif type == "object" then keys else . end' /mnt/user-data/uploads/data.json

head -3 /mnt/user-data/uploads/data.jsonl | jq .
wc -l /mnt/user-data/uploads/data.jsonl

Reading Uploaded Files

Why this skill exists

General protocol

Reading Uploaded Files

Why this skill exists

General protocol

Dispatch table

PDF

DOCX / DOC

XLSX / XLS / spreadsheets

PPTX

CSV / TSV

JSON / JSONL

Images (JPG / PNG / GIF / WEBP)

Feishu Doc

Summarize

Nano Pdf

Diffs

Customs Trade Compliance

Nutrient Document Processing