Name: Phase: Parse and Refresh
Author: sfc-gh-rraman

搜索技能.../

Phase: Parse and Refresh | Skills Pool

ALTER WAREHOUSE {warehouse} SET WAREHOUSE_SIZE = '3XLARGE';

CALL {db}.{schema}.CLINICAL_DOCUMENTS_PARSE_WITH_IMAGES_V2();

ALTER WAREHOUSE {warehouse} SET WAREHOUSE_SIZE = 'XLARGE';

CALL {db}.{schema}.CLASSIFY_AGGREGATED_DOCUMENTS();

CALL {db}.{schema}.EXTRACT_DOCUMENT_TYPE_SPECIFIC_VALUES_WITH_AI_AGG();

ALTER WAREHOUSE {warehouse} SET WAREHOUSE_SIZE = 'MEDIUM';

SELECT 'parse_output' AS source, COUNT(*) AS rows FROM {db}.{schema}.DOCS_PARSE_OUTPUT
UNION ALL
SELECT 'classifications', COUNT(*) FROM {db}.{schema}.DOC_CLASSIFICATION_METADATA_ROWS
UNION ALL
SELECT 'extractions', COUNT(*) FROM {db}.{schema}.DOC_TYPE_SPECIFIC_VALUES_EXTRACT_OUTPUT;

INSERT INTO {db}.{schema}.CLINICAL_DOCUMENTS_RAW_CONTENT (
    DOCUMENT_RELATIVE_PATH, DOCUMENT_STAGE, PAGE_NUMBER_IN_PARENT,
    DOCUMENT_CLASSIFICATION, PATIENT_NAME, MRN, PAGE_CONTENT,
    DOC_TOTAL_PAGES, PRESIGNED_URL, STAGE_FILE_URL, URL_GENERATED_AT
)
-- Non-split documents
SELECT
    s.DOCUMENT_RELATIVE_PATH, s.DOCUMENT_STAGE, s.PAGE_NUMBER_IN_PARENT,
    dcm_cls.FIELD_VALUE AS DOCUMENT_CLASSIFICATION,
    {coalesce_patient_fields} AS PATIENT_NAME,
    {coalesce_mrn_fields} AS MRN,
    CONCAT('[Page ', s.PAGE_NUMBER_IN_PARENT, ']' || CHR(10) || CHR(10), s.PAGE_CONTENT),
    s.DOC_TOTAL_PAGES,
    GET_PRESIGNED_URL(@{db}.{schema}.{stage}, s.DOCUMENT_RELATIVE_PATH, 604800),
    CONCAT('snow://stage/', REPLACE(s.DOCUMENT_STAGE, '@', ''), '/', s.DOCUMENT_RELATIVE_PATH),
    CURRENT_TIMESTAMP()
FROM {db}.{schema}.DOCS_PARSE_OUTPUT s
LEFT JOIN {db}.{schema}.DOC_CLASSIFICATION_METADATA_ROWS dcm_cls
    ON s.DOCUMENT_RELATIVE_PATH = dcm_cls.DOCUMENT_RELATIVE_PATH
    AND dcm_cls.FIELD_NAME = 'DOCUMENT_CLASSIFICATION'
{join_pivot_views_non_split}
WHERE s.PARENT_DOCUMENT_RELATIVE_PATH IS NULL
UNION ALL
-- Split documents (join via DOCUMENT_HIERARCHY)
SELECT
    s.PARENT_DOCUMENT_RELATIVE_PATH, dh.PARENT_DOCUMENT_STAGE, s.PAGE_NUMBER_IN_PARENT,
    dcm_cls.FIELD_VALUE, {coalesce_patient_fields}, {coalesce_mrn_fields},
    CONCAT('[Page ', s.PAGE_NUMBER_IN_PARENT, ']' || CHR(10) || CHR(10), s.PAGE_CONTENT),
    s.DOC_TOTAL_PAGES,
    GET_PRESIGNED_URL(@{db}.{schema}.{stage}, s.PARENT_DOCUMENT_RELATIVE_PATH, 604800),
    CONCAT('snow://stage/', REPLACE(dh.PARENT_DOCUMENT_STAGE, '@', ''), '/', s.PARENT_DOCUMENT_RELATIVE_PATH),
    CURRENT_TIMESTAMP()
FROM {db}.{schema}.DOCS_PARSE_OUTPUT s
JOIN {db}.{schema}.DOCUMENT_HIERARCHY dh
    ON s.DOCUMENT_RELATIVE_PATH = dh.DOCUMENT_RELATIVE_PATH
LEFT JOIN {db}.{schema}.DOC_CLASSIFICATION_METADATA_ROWS dcm_cls
    ON s.PARENT_DOCUMENT_RELATIVE_PATH = dcm_cls.DOCUMENT_RELATIVE_PATH
    AND dcm_cls.FIELD_NAME = 'DOCUMENT_CLASSIFICATION'
{join_pivot_views_split}
WHERE s.PARENT_DOCUMENT_RELATIVE_PATH IS NOT NULL;

EXECUTE TASK {db}.{schema}.REFRESH_RAW_CONTENT_TASK;

-- Verify pivot views have data
SELECT COUNT(*) FROM {db}.{schema}.DISCHARGE_SUMMARY_V;

SELECT 'Documents' AS metric, COUNT(DISTINCT DOCUMENT_RELATIVE_PATH) AS value FROM {db}.{schema}.DOCUMENT_HIERARCHY
UNION ALL
SELECT 'Pages Parsed', COUNT(*) FROM {db}.{schema}.DOCS_PARSE_OUTPUT
UNION ALL
SELECT 'Classifications', COUNT(DISTINCT DOCUMENT_RELATIVE_PATH) FROM {db}.{schema}.DOC_CLASSIFICATION_METADATA_ROWS
UNION ALL
SELECT 'Extractions', COUNT(*) FROM {db}.{schema}.DOC_TYPE_SPECIFIC_VALUES_EXTRACT_OUTPUT
UNION ALL
SELECT 'AI-Ready Pages', COUNT(*) FROM {db}.{schema}.CLINICAL_DOCUMENTS_RAW_CONTENT;

SELECT DOCUMENT_CLASSIFICATION, FIELD_NAME, FIELD_VALUE
FROM {db}.{schema}.DOC_TYPE_SPECIFIC_VALUES_EXTRACT_OUTPUT
ORDER BY DOCUMENT_RELATIVE_PATH, DOCUMENT_CLASSIFICATION, FIELD_NAME
LIMIT 20;

ALTER WAREHOUSE {warehouse} SET WAREHOUSE_SIZE = '{original_size}';

PHASE COMPLETE: parse-and-refresh
  pages_parsed: {N}
  raw_content_rows: {M}
  sv_created: {true|false}
  pipeline_summary:
    Documents: {doc_count}
    Pages Parsed: {page_count}
    Classifications: {class_count}
    Extractions: {extract_count}
    AI-Ready Pages: {raw_count}

Parameter	Source
`{db}`, `{schema}`, `{stage}`, `{warehouse}`	confirm-environment
`{warehouse_size_decision}`	confirm-pipeline-config
`{classification_distribution}`	phase-classify
`{extraction_count}`	phase-extract

Parameter	Source
`{db}`, `{schema}`, `{stage}`, `{warehouse}`	confirm-environment
`{warehouse_size_decision}`	confirm-pipeline-config
`{classification_distribution}`	phase-classify
`{extraction_count}`	phase-extract

Phase: Parse and Refresh

Inputs (from completed gates and prior phases)

Outputs (returned to caller)

Phase: Parse and Refresh

Inputs (from completed gates and prior phases)

Outputs (returned to caller)

Step 1: Parse Documents (AI_PARSE_DOCUMENT)

Step 2: Classify Aggregated Documents (Split-doc AI_AGG)

Step 3: Extract Aggregated Values (Split-doc AI_AGG)

Step 4: Refresh AI-Ready Content Layer

Option A: Direct INSERT (Recommended for initial load)

Option B: Task execution (incremental updates only)

Stream Recovery

Step 5: Create Semantic View (Post-Data)

PIVOT Column Quoting (CRITICAL)

Semantic View Syntax (CRITICAL)

Step 6: Verify Results

Restore Warehouse (if auto-resize)

Return

Clickhouse Io

Clickhouse Io

Claude Devfleet

Clickhouse Io

Ai First Engineering

Postgres Patterns