Name: Arabic Text Quality
Author: rayanino

スキルを検索.../

Arabic Text Quality | Skills Pool

Symptom	Cause	Fix
Ù…ØÙ…Ø¯ instead of محمد	UTF-8 bytes decoded as Latin-1 then re-encoded	Decode as Latin-1, re-encode as UTF-8
Â followed by Arabic	Double UTF-8 encoding	Decode once, not twice
? or □ replacing characters	Encoding truncation or unsupported char	Re-extract from source
ﻻ (U+FEFB) instead of لا	Arabic presentation form	Normalize to composed form لا (lam + alif)
Isolated diacritics without base letters	Encoding split	Invalid text — re-extract

Level	Description	Typical Source	KR Handling
Full (مشكول بالكامل)	Every letter has explicit diacritic	Quran, classical mutun, learning texts	Preserve exactly — diacritics ARE content
Partial (مشكول جزئياً)	Ambiguous words diacritized, common words bare	Most scholarly texts	Preserve as-is — partial diacritization is intentional
Minimal (غير مشكول)	No diacritics except where essential	Modern prints, newspapers	Record as undiacritized — DO NOT add diacritics
Inconsistent	Random diacritization — some pages full, some bare	OCR artifacts, mixed sources	Flag for quality review — likely OCR problem

Issue	Pattern	Detection	Severity
Missing pages	Page number jumps (e.g., p.45 → p.48)	Page sequence gap detection	HIGH — content loss
Concatenated books	Two different books merged in one entry	Author/topic sudden change mid-text	HIGH — misattribution
Metadata mismatch	Shamela author field doesn't match actual author	Compare metadata vs. colophon/introduction	MODERATE
HTML artifacts	Leftover `&`, `<br>`, `</span>` in text	Regex for HTML entities in content	LOW — cleanup
Empty sections	Division headers with no content	Empty div after heading	LOW — structural
Encoding mix	Arabic + Latin numeral confusion in page refs	١٢٣ vs 123 mixed in same field	LOW — normalize
Footnote displacement	Footnotes placed at wrong location	Footnote reference without corresponding note	MODERATE

# Pseudocode — do NOT modify frozen source
original_hash = sha256(frozen_source_bytes)
processed_text_bytes = processed_text.encode('utf-8')
# The hash will differ (processing changes text), but:
# - Arabic letter count must be >= original (no lost letters)
# - Diacritic count must be == original (no lost/added diacritics)
# - Quran citations must be byte-identical to original

Correct	Confused With	Context	Detection Heuristic
ه (ha)	ة (ta marbuta)	Word-final	If word-final ه follows a fatha or appears in a known pattern (e.g., كتابه vs كتابة), check against dictionary
ة (ta marbuta)	ه (ha)	Word-final	Reverse of above — ة misread as ه changes meaning (صلاة→صلاه is invalid)

Correct	Confused With	Context	Detection Heuristic
ه (ha)	ة (ta marbuta)	Word-final	If word-final ه follows a fatha or appears in a known pattern (e.g., كتابه vs كتابة), check against dictionary
ة (ta marbuta)	ه (ha)	Word-final	Reverse of above — ة misread as ه changes meaning (صلاة→صلاه is invalid)

Arabic Text Quality

Arabic Text Quality Assessment

1. OCR Corruption Patterns

High-Frequency Character Confusions

Arabic Text Quality

Arabic Text Quality Assessment

1. OCR Corruption Patterns

High-Frequency Character Confusions

Detection Strategy

2. Encoding Issues

UTF-8 Validation

Presentation Forms (U+FB50-U+FEFF)

Windows-1256 Artifacts

3. Diacritic Quality Assessment

Diacritization Levels

Diacritic Integrity Checks

KR Rules for Diacritics

4. Shamela-Specific Quality Issues

Known Shamela HTML Patterns

Quality Score

5. Text Integrity Verification

Frozen Source Comparison

Processing Invariants

Goplaces

Research Ops

Editor

Fact Checker

Deep Research

Academic Researcher