Name: Stage2 Extraction
Author: channel-io

Search skills.../

Stage2 Extraction | Skills Pool

mkdir -p results/{company}/02_extraction

python3 -c "
import pandas as pd, json, math
tags = pd.read_excel('results/{company}/01_clustering/{prefix}_tags.xlsx')
K = len(tags)
n_samples = max(25, math.ceil(500 / K))
print(f'K={K}, n_samples_per_cluster={n_samples}, total={K * n_samples}')
data = {'metadata': {'company': '{company}', 'bootstrap': True}, 'clusters': []}
for _, r in tags.iterrows():
    data['clusters'].append({'cluster_id': int(r['cluster_id']), 'label': r['label'], 'category': r['category'], 'cluster_size': int(r['cluster_size'])})
with open('results/{company}/02_extraction/patterns.json', 'w') as f:
    json.dump(data, f, ensure_ascii=False, indent=2)
"

python3 scripts/enrich_patterns.py \
  --patterns results/{company}/02_extraction/patterns.json \
  --messages results/{company}/01_clustering/{prefix}_messages.csv \
  --output results/{company}/02_extraction/conversations_by_cluster.json \
  --n-samples {n_samples}

{
  "sop_topic_map": {
    "topics": [
      {
        "topic_id": "TS_HARDWARE_AS",
        "title": "A/S 접수 및 하드웨어 불량 처리",
        "type": "TS",
        "journey_stage": "사용 중",
        "source_clusters": [
          {"cluster_id": 0, "portion": "partial", "conversation_ids": [1,3,5], "reason": "하드웨어 관련만"},
          {"cluster_id": 6, "portion": "full"}
        ],
        "estimated_records": 500,
        "key_patterns": ["블루스크린", "택배_AS_접수"]
      }
    ],
    "merge_log": [...],
    "label_corrections": [...]
  }
}

python3 scripts/enrich_patterns.py \
  --patterns results/{company}/02_extraction/patterns.json \
  --messages results/{company}/01_clustering/{prefix}_messages.csv \
  --output results/{company}/02_extraction/patterns_enriched.json \
  --n-samples {n_samples}

Issue	Solution
Enrichment fails (messages.csv missing)	Fall back to `enhanced_text` from `clustered.xlsx`, mark `"data_source": "summary_fallback"`
Patterns too generic	Re-read conversations, copy-paste exact customer phrases
Too many topics (>15)	Merge related topics (e.g., "SSD 인식" + "HDD 연결" → "저장장치 문제")

Stage2 Extraction

Stage 2: Pattern & FAQ Extraction

Overview

Parameters

Required

Stage2 Extraction

Stage 2: Pattern & FAQ Extraction

Overview

Parameters

Required

Optional

Steps

1. Load Stage 1 Results and Run Enrichment

2. Analyze Conversations per Cluster

3. Define SOP Topics (Re-classification)

4. Generate FAQ Pairs and Keywords

5. Save Results and Run Final Enrichment

Troubleshooting

Notes

Feishu Doc

Summarize

Nano Pdf

Diffs

Customs Trade Compliance

Nutrient Document Processing