Bereitet ein unsortiertes Kunden-Prozessdokument semantisch auf: Aktivitäts-Grenzen erkennen, Cross-Referenzen kartieren, Struktur normalisieren Produziert ein prepared-Doc als optimale Grundlage für das Profiling.
Gates, Transitions und Routing: siehe
context/workflow-spec.yaml → pipeline.doc-prep
| Input-Typ | Erkennung | Bereinigung |
|---|---|---|
| DOCX-konvertiert | Escaped Characters (\>, 1\.) | \> → >, \< → <, \+ → +, 1\. → |
1.| PDF-Export / Transkript | Keine Markdown-Headings | Keine Bereinigung nötig |
| Sauberes Markdown | H1/H2-Hierarchie vorhanden | Keine Bereinigung nötig |
| Aufbereitetes Transkript | Pfad enthält _pipeline/aufbereitet/ ODER Frontmatter type: aufbereitetes-transkript | Keine Bereinigung — direkt Phase B |
Aktivitäten NICHT anhand von Formatting identifizieren. Drei semantische Kriterien:
Formatting als Signal, nicht als Beweis: Fettdruck-Zeilen und H2-Überschriften werden als EINES von mehreren Signalen genutzt. Bei Widerspruch (Fettdruck ohne Themenwechsel, oder Themenwechsel ohne Fettdruck) gewinnt IMMER die Semantik.
Pro Kandidat drei Validierungsfragen:
| Frage | Wenn NEIN |
|---|---|
| Ist das ein eigenständiges Arbeitsergebnis? (nicht nur ein Teilschritt) | → Kein Aktivitäts-Split, als Sub-Schritt behandeln |
| Ergibt das eine sinnvolle atomare Einheit für einen AI-Agenten? (klare Inputs/Outputs, 5-10 Schritte, 3-7 Regeln) | → Merge mit benachbarter Aktivität oder Split in kleinere Einheiten |
| Würde ein Split oder Merge die spätere Agent-Qualität verbessern? | → Aktuelle Granularität beibehalten |
Ergebnis: Nummerierte Liste der identifizierten Aktivitäten mit Name, Ergebnis und Agent-Hinweis.
Verstreute Informationen kartieren:
Shared Logic identifizieren:
System-Inventar konsolidieren:
Den bereinigten Text in eine konsistente Heading-Hierarchie bringen:
Annotations einfügen:
<!-- CROSS-REF: Siehe Aktivität X für [Thema] --> — bei verstreuten Informationen<!-- AGENT-NOTE: [Hinweis für den Profiling-Skill] --> — bei BesonderheitenAnnotations stehen direkt unter der betroffenen Textstelle.
Prepared Doc nach {base_path}/_pipeline/prepared/{datei}-prepared.md schreiben. Format: references/prepared-template.md.
Frontmatter-Felder ableiten:
source → Pfad zum Input-Archivactivities_identified → Anzahl der erkannten Aktivitätensystems_found → Anzahl der erkannten Systemecross_refs_found → Anzahl der erkannten Cross-Referenzenconsolidation_notes → Kurze Zusammenfassung der wichtigsten Erkenntnisse_upload/ bzw. _pipeline/aufbereitet/ wird NIEMALS modifiziertNach dem Write MUSS die geschriebene Datei mit Read gelesen und gegen diese Checkliste geprüft werden:
| Prüfpunkt | Erwartung |
|---|---|
| Frontmatter | type: prepared-input + alle Pflichtfelder vorhanden (activities_identified, systems_found, cross_refs_found) |
| System-Inventar | Tabelle mit Spalten System, Erwähnungen, Kontexte vorhanden |
| Cross-Referenz-Karte | Tabelle vorhanden (darf leer sein wenn keine Cross-Referenzen) |
| Aktivitäts-Grenzen | Übersichtstabelle mit #, Aktivität, Ergebnis, Agent-Hinweis |
| Aktivitäts-Sektionen | Mindestens 1 nummerierte Aktivitäts-Sektion mit normalisiertem Text |
| Keine Bewertung | Keine A/B/C-Klassifikation, keine Ergebnis-Spezifikationen |
Bei Verstoß: Datei mit Edit korrigieren. KEIN Weitermachen mit fehlerhaftem Dokument.
Im Chat zeigen — NUR diese Zeilen:
{N} Aktivitäten erkannt, {M} Systeme kartiert, {K} Cross-Referenzen gefunden.
[Prepared Doc ansehen]({pfad-zu-prepared.md})
Weiter mit der Analyse...
Nach der Fortschrittsmeldung: SOFORT mit dem nächsten Pipeline-Schritt fortfahren — KEIN Warten auf User-Input, KEIN "frischer Chat".
VERBOTEN: