name regex-vs-llm-structured-text description 选择在解析结构化文本时使用正则表达式还是大型语言模型的决策框架——从正则表达式开始，仅在低置信度的边缘情况下添加大型语言模型。 origin ECC 正则表达式 vs LLM 用于结构化文本解析一个用于解析结构化文本（测验、表单、发票、文档）的实用决策框架。核心见解是：正则表达式能以低成本、确定性的方式处理 95-98% 的情况。将昂贵的 LLM 调用留给剩余的边缘情况。何时使用解析具有重复模式的结构化文本（问题、表单、表格）决定在文本提取时使用正则表达式还是 LLM 构建结合两种方法的混合管道在文本处理中优化成本/准确性权衡决策框架文本格式是否一致且重复？ ├── 是 (>90% 遵循某种模式) → 从正则表达式开始 │ ├── 正则表达式处理 95%+ → 完成，无需 LLM │ └── 正则表达式处理 <95% → 仅为边缘情况添加 LLM └── 否 (自由格式，高度可变) → 直接使用 LLM 架构模式 [正则表达式解析器] ─── 提取结构（95-98% 准确率） │ ▼ [文本清理器] ─── 去除噪声（标记、页码、伪影） │ ▼ [置信度评分器] ─── 标记低置信度提取项 │ ├── 高置信度（≥0.95）→ 直接输出 │ └── 低置信度（<0.95）→ [LLM 验证器] → 输出实现

正则表达式解析器（处理大多数情况） import re from dataclasses import dataclass @dataclass( frozen= True ) class ParsedItem : id : str text: str choices: tuple [ str , ...] answer: str confidence: float = 1.0 def parse_structured_text ( content: str ) -> list [ParsedItem]: """Parse structured text using regex patterns.""" pattern = re. compile ( r"(?P<id>\d+).\s*(?P<text>.+?)\n" r"(?P<choices>(?:[A-D]..+?\n)+)" r"Answer:\s*(?P<answer>[A-D])" , re.MULTILINE | re.DOTALL, ) items = [] for match in pattern.finditer(content): choices = tuple ( c.strip() for c in re.findall( r"[A-D].\s*(.+)" , match .group( "choices" )) ) items.append(ParsedItem( id = match .group( "id" ), text= match .group( "text" ).strip(), choices=choices, answer= match .group( "answer" ), )) return items
置信度评分标记可能需要 LLM 审核的项： @dataclass( frozen= True ) class ConfidenceFlag : item_id: str score: float reasons: tuple [ str , ...] def score_confidence ( item: ParsedItem ) -> ConfidenceFlag: """Score extraction confidence and flag issues.""" reasons = [] score = 1.0 if len (item.choices) < 3 : reasons.append( "few_choices" ) score -= 0.3 if not item.answer: reasons.append( "missing_answer" ) score -= 0.5 if len (item.text) < 10 : reasons.append( "short_text" ) score -= 0.2 return ConfidenceFlag( item_id=item. id , score= max ( 0.0 , score), reasons= tuple (reasons), ) def identify_low_confidence ( items: list [ParsedItem], threshold: float = 0.95 , ) -> list [ConfidenceFlag]: """Return items below confidence threshold.""" flags = [score_confidence(item) for item in items] return [f for f in flags if f.score < threshold]

Regex Vs Llm Structured Text

Regex Vs Llm Structured Text

Cheapest model for validation

Parse LLM response and return corrected item...

return corrected_item 4. 混合管道 def process_document ( content: str , *, llm_client= None , confidence_threshold: float

Step 1: Regex extraction (handles 95-98%)

Step 2: Confidence scoring

Step 3: LLM validation (only for flagged items)

Metal Kernel

Pt2 Bug Basher

Llama Cpp

Pytorch Patterns

At Dispatch V2

Add Uint Support