Name: Langextract Extraction
Author: RaoHai

スキルを検索.../

Langextract Extraction | Skills Pool

{
  "extractions": [
    {
      "类别": "提取的文本",
      "类别_attributes": {
        "key": "value"
      }
    }
  ]
}

{
  "人物": "张三",
  "人物_attributes": {
    "role": "工程师",
    "department": "研发部"
  }
}

{
  "关系": "张三是李四的经理",
  "关系_attributes": {
    "type": "管理关系",
    "source": "张三",
    "target": "李四",
    "direction": "manages"
  }
}

[Optional: Brief instruction]

Examples
Q: [Example text]
A: [Example JSON with extractions]

Q: [Target text - can be chunked if long]
A:

[Previous text]: ...end of previous chunk...

Examples
Q: [Example]
A: [Example JSON]

Q: [Current chunk]
A:

{
  "症状": "头痛",
  "症状_attributes": {
    "severity": "中度",
    "duration": "3天",
    "frequency": "间歇性"
  }
}

{
  "条款": "违约责任",
  "条款_attributes": {
    "section": "第5条",
    "type": "义务性条款",
    "parties": ["甲方", "乙方"]
  }
}

{
  "话题": "#AI技术",
  "话题_attributes": {
    "sentiment": "正面",
    "engagement": "高"
  }
}

# Find exact text in source
position = source_text.find(extraction_text)
if position >= 0:
    char_interval = (position, position + len(extraction_text))

{
  "extractions": [
    {"人物": "Alice", "人物_attributes": {}},
    {"地点": "Paris", "地点_attributes": {}},
    {"时间": "2024-01-15", "时间_attributes": {}}
  ]
}

{
  "extractions": [
    {
      "产品": "iPhone 15",
      "产品_attributes": {
        "category": "手机",
        "price": "5999",
        "features": ["A17芯片", "钛金属边框"]
      }
    }
  ]
}

{
  "extractions": [
    {"人物": "张三", "人物_attributes": {"role": "CEO"}},
    {"人物": "李四", "人物_attributes": {"role": "CTO"}},
    {
      "关系": "张三管理李四",
      "关系_attributes": {
        "type": "reports_to",
        "source": "李四",
        "target": "张三"
      }
    }
  ]
}

"人物_attributes": {
  "age": "30",
  "occupation": "engineer"
}

"人物_attributes": {
  "info": "30 years old engineer"
}

提取结果:
============================================================

【人物】(3 个)
------------------------------------------------------------
  • 张三
    描述: 项目经理
    属性: {"department": "研发部"}

【事件】(2 个)
------------------------------------------------------------
  • 项目启动会
    描述: 讨论Q1目标

{
  "document_id": "doc_001",
  "text": "原始文本...",
  "extractions": [
    {
      "extraction_class": "人物",
      "extraction_text": "张三",
      "char_interval": {"start": 10, "end": 12},
      "description": "项目经理",
      "attributes": {"department": "研发部"}
    }
  ]
}

Langextract Extraction

LangExtract-Style Entity Extraction

Core Concept

Quick Start

Basic Extraction

Langextract Extraction

LangExtract-Style Entity Extraction

Core Concept

Quick Start

Basic Extraction

Extraction Format

Standard Structure

Entity Types

Adding Attributes

Relationships

Workflow

Step 1: Understand Requirements

Step 2: Create Example

Step 3: Build Prompt

Step 4: Process Response

Step 5: Present Results

Advanced Patterns

Long Documents

Multi-pass Extraction

Domain-Specific Extraction

Alignment Algorithm

Exact Match

Fuzzy Match

Handle Failures

Common Patterns

Pattern 1: Simple Entity List

Pattern 2: Rich Attributes

Pattern 3: Knowledge Graph

Tips

Prompt Design

Example Quality

Attribute Design

Error Handling

Output Formats

Console Display

JSON Export

HTML Visualization

Reference

Feishu Doc

Summarize

Nano Pdf

Diffs

Customs Trade Compliance

Nutrient Document Processing