技能檔案

Inorganic Candidate Generation

Name: Inorganic Candidate Generation
Author: hkqai

Generate inorganic crystal structure candidates for computational materials discovery workflows. Use this skill whenever the user wants to build, explore, or diversify a pool of inorganic structures for DFT screening, high-throughput calculations, machine learning dataset construction, or property-guided search. This skill covers the COMPLETE candidate generation pipeline from elements to structures - composition discovery (elements-only entry) -> seed structure creation -> chemical space exploration -> configurational ordering -> defect generation -> ensemble augmentation.

hkqai6 星標2026年4月15日

職業
分類: 教育

技能內容

This skill guides the systematic generation of inorganic crystal structure candidates using a suite of tools for composition discovery and structure generation. The methodology is: discover compositions → prototype → explore chemistry → add disorder → resolve disorder → add defects → augment, selecting the appropriate branch(es) for the discovery goal.

The core philosophy: candidate generation is a funnel. Start broad (many compositions, many chemistries, many configurations), then narrow using physical filters (charge neutrality, Ewald energy, thermodynamic stability from MP). Always track structures in the ASE database using ase_store_result so nothing is recomputed.

Entry Points:

Elements only (Li-Mn-P-O) → Phase 0 (composition discovery)
Composition known (LiMnPO₄) → Phase 1 (seed structure)
Structure exists (from MP/CIF) → Phase 2 (chemical exploration)

Tool Catalogue

Phase 0 Tools: Composition Discovery

0A. — Oxidation-Balanced Enumeration

相關技能

Inorganic Candidate Generation | Skills Pool

技能檔案

Inorganic Candidate Generation

hkqai6 星標2026年4月15日

職業
分類: 教育

技能內容

Entry Points:

Elements only (Li-Mn-P-O) → Phase 0 (composition discovery)
Composition known (LiMnPO₄) → Phase 1 (seed structure)
Structure exists (from MP/CIF) → Phase 2 (chemical exploration)

Tool Catalogue

Phase 0 Tools: Composition Discovery

0A. — Oxidation-Balanced Enumeration

相關技能

composition_enumerator

{
  "success": True,
  "count": 12,
  "compositions": [
    "Li3PO4",
    "LiMnPO4",  # Target composition! (olivine battery cathode)
    "LiFePO4",  # If Fe added to oxidation_states
    ...
  ],
  # OR with output_format='detailed':
  "compositions": [
    {
      "formula": "LiMnPO4",
      "reduced_formula": "LiMnPO4",
      "num_atoms": 7,
      "cation_count": 3,
      "anion_count": 4,
      "anion_cation_ratio": 1.33,
      "oxidation_states": {"Li": 1, "Mn": 2, "P": 5, "O": -2},
      "charge": 0
    },
    ...
  ]
}

{
  "success": True,
  "original_composition": "LiFePO4",
  "direction": "from_this_composition",
  "suggestions": {
    "high": [{"formula": "LiMnPO4", "probability": 0.85}, ...],
    "medium": [{"formula": "LiCoPO4", "probability": 0.45}, ...],
    "low": [{"formula": "LiNiPO4", "probability": 0.02}, ...]
  }
}

# Find what LiFePO₄ can transform into
result = pymatgen_substitution_predictor('LiFePO4', threshold=0.01)

# Extract high-confidence suggestions
target_formulas = [s['formula'] for s in result['suggestions']['high']]

# For each, check MP for structures
for formula in target_formulas:
    mp_result = mp_search_materials(formula=formula)
    if mp_result['count'] > 0:
        # Structure exists in MP, can use directly

# Step 1: Find analogues with similar chemistry (Fe instead of Mn)
li_fe_p_o = mp_search_materials(
    elements=['Li', 'Fe', 'P', 'O'],
    num_elements=4,
    is_stable=True,
    limit=50
)

# Step 2: Extract stoichiometric patterns
patterns = set()
for mat in li_fe_p_o['materials']:
    # Identify pattern: LiMPO₄, Li₃M₂(PO₄)₃, etc.
    patterns.add(mat['composition_reduced'])

# Step 3: Use patterns to constrain composition_enumerator
if 'NaMnPO4' in patterns:
    # Found olivine pattern (AMPO₄)! Prioritize compositions around 7 atoms
    result = composition_enumerator(
        elements=['Li', 'Mn', 'P', 'O'],
        oxidation_states={'Li': [1], 'Mn': [2], 'P': [5], 'O': [-2]},
        max_formula_units=8  # Allows LiMnPO₄ (7 atoms)
    )

# Step 1: Get ordered structure from Materials Project
mp_result = mp_get_material_properties(
    material_ids=["mp-1097088"],  # LiNiO₂
    properties=["structure"]
)

# Step 2: Add disorder for partial substitution Li[Ni₀.₈Mn₀.₂]O₂
disordered = pymatgen_disorder_generator(
    input_structures=mp_result["properties"][0]["structure"],
    site_substitutions={"Ni": {"Ni": 0.8, "Mn": 0.2}}  # 80% Ni, 20% Mn on TM sites
)

# Step 3: Generate SQS for DFT calculations
sqs = pymatgen_sqs_generator(
    input_structures=disordered["structures"],
    supercell_size=16,
    n_structures=3
)

Aspect	`pymatgen_disorder_generator`	`pymatgen_substitution_generator`
Output type	Fractional occupancy (statistical disorder)	Integer occupancy (ordered enumeration)
Site occupancy	Multiple species on same site with fractions summing to 1	Single species per site (occu=1)
Example	Site has 80% Ni + 20% Mn	Site 1 has 100% Mn, Sites 2-5 have 100% Ni
Formula	Li₃[Ni₂.₄Mn₀.₆]O₆ (fractional)	LiNi₄MnO₁₀ (integer, ordered)
Output count	1 disordered structure per input	Multiple ordered configurations per input
Use for	SQS generation, VCA calculations, statistical models	Supercell enumeration, exhaustive DFT, specific orderings

Do you need partial substitution like Li[Ni₀.₈Mn₀.₂]O₂?
├─ YES: Do you want fractional occupancy (every site has 80%Ni+20%Mn)?
│  ├─ YES → Use `pymatgen_disorder_generator`
│  │         site_substitutions={'Ni': {'Ni': 0.8, 'Mn': 0.2}}
│  │         → Output: 1 structure with fractional occupancy
│  │         → Then: pymatgen_sqs_generator for quasirandom supercells
│  │
│  └─ NO: Want ordered enumeration (1 specific Ni replaced per structure)?
│     └─ YES → Use `pymatgen_substitution_generator`
│               substitutions={'Ni': {'replace_with': 'Mn', 'fraction': 0.2}}
│               → Output: 5 structures, each with different Ni site replaced
│               → Then: Run DFT on each ordered configuration
│
└─ NO: Complete substitution (all Li → Na)?
   └─ Use `pymatgen_substitution_generator`
      substitutions={'Li': 'Na'}
      → Output: 1 structure with all Li replaced by Na

# Example: Discover Li-Mn-P-O battery cathode compositions
result = composition_enumerator(
    elements=['Li', 'Mn', 'P', 'O'],
    oxidation_states={
        'Li': [1],       # Li⁺
        'Mn': [2, 3],    # Mn²⁺, Mn³⁺
        'P': [5],        # P⁵⁺ (phosphate)
        'O': [-2]        # O²⁻
    },
    max_formula_units=6,
    max_atoms_per_formula=30,
    require_all_elements=True,  # Only quaternary Li-Mn-P-O, not ternaries
    sort_by='atoms',  # Simplest compositions first
    output_format='detailed'
)

# Result: ~12 compositions including LiMnPO₄, Li₃Mn(PO₄)₂, Mn₃(PO₄)₂, etc.
compositions = result['compositions']

stable_compositions = []
for comp in compositions:
    stability = stability_analyzer(composition=comp['formula'])
    if stability['is_stable'] or stability['energy_above_hull'] < 0.1:
        stable_compositions.append(comp['formula'])

# Feed to Phase 1 or query MP for existing structures

# Step 1: Search for analogues (Na or Fe instead of Li/Mn)
na_templates = mp_search_materials(
    elements=['Na', 'Mn', 'P', 'O'],
    num_elements=4,
    is_stable=True
)

if na_templates['count'] == 0:
    # Try Fe instead of Mn (well-known LiFePO4)
    fe_templates = mp_search_materials(
        elements=['Li', 'Fe', 'P', 'O'],
        num_elements=4,
        is_stable=True
    )

# Step 2: Extract stoichiometric patterns
patterns = {}
for mat in fe_templates['materials']:
    formula = mat['composition_reduced']
    patterns[formula] = mat['spacegroup_number']

print(f"Found patterns: {patterns}")
# Example output: {'LiFePO4': 62, 'Li3PO4': 61, ...}

# Step 3: Use patterns to guide composition_enumerator
if 'LiFePO4' in patterns:
    # Olivine pattern exists (AMPO₄) → prioritize LiMnPO₄
    target_formulas = ['LiMnPO4']
    
if 'Li3PO4' in patterns:
    # Phosphate pattern exists → Li₃PO₄ likely!
    target_formulas.append('Li3PO4')

# Proceed to Phase 1 with these target compositions

# Starting from known La₂WO₆ structure
substitutions = pymatgen_substitution_predictor(
    composition='La2WO6',
    to_this_composition=False,  # What can La₂WO₆ become?
    threshold=0.01,
    group_by_probability=True
)

# Extract high-confidence suggestions
high_prob = substitutions['suggestions']['high']
target_formulas = [s['formula'] for s in high_prob]

# Check which ones exist in MP
for formula in target_formulas:
    mp_result = mp_search_materials(formula=formula)
    if mp_result['count'] > 0:
        print(f"{formula}: exists in MP (mp-id: {mp_result['materials'][0]['material_id']})")
    else:
        print(f"{formula}: novel composition candidate!")

START: Have elements, need compositions
│
├─ Known analogue exists? (e.g., LiFePO₄ for Li-Mn-P-O)
│  ├─ YES → Strategy 3 (substitution_predictor) + Strategy 2 (MP templates)
│  └─ NO → Strategy 1 (composition_enumerator)
│
├─ Chemical system well-studied? (battery cathodes, perovskites)
│  ├─ YES → Strategy 2 (MP templates) first, then Strategy 1 if gaps
│  └─ NO → Strategy 1 (composition_enumerator)
│
└─ Exploratory discovery? (don't know what to expect)
   └─ Strategy 1 (composition_enumerator) → filter by stability

pymatgen_prototype_builder(
    spacegroup=225,           # Fm-3m (rock-salt)
    species=['Li', 'O'],
    lattice_parameters=[4.33] # cubic: [a]
)

Prototype	SG #	Symbol	Example
Rock-salt	225	Fm-3m	NaCl, LiF, MgO
Perovskite	221	Pm-3m	BaTiO₃, SrTiO₃
Spinel	227	Fd-3m	MgAl₂O₄, LiMn₂O₄
Layered oxide (α-NaFeO₂)	166	R-3m	LiCoO₂, LiNiO₂
Olivine	62	Pnma	LiFePO₄, LiMnPO₄
Rutile	136	P4₂/mnm	TiO₂, SnO₂
Wurtzite	186	P6₃mc	ZnO, GaN
Fluorite	225	Fm-3m	CaF₂, CeO₂

pymatgen_substitution_generator(
    input_structures=seed_structure,
    substitutions={'Li': ['Na', 'K', 'Rb'], 'Fe': ['Mn', 'Co', 'Ni']},
    n_structures=10,
    enforce_charge_neutrality=False
)

pymatgen_ion_exchange_generator(
    input_structures=seed_structure,
    replace_ion='Li',
    with_ions={'Na': 0.5, 'Mg': 0.5},
    exchange_fraction=1.0,
    max_structures=20
)

pymatgen_enumeration_generator(
    input_structures=disordered_structs,
    supercell_size=2,
    n_structures=50,
    sort_by='ewald'
)

pymatgen_sqs_generator(
    input_structures=disordered_struct,
    supercell_size=16,
    n_structures=5,
    n_mc_steps=200000,
    seed=42
)

pymatgen_defect_generator(
    input_structure=ordered_structure,
    vacancy_species=['Li'],
    substitution_species={'Fe': ['Mn', 'Co']},
    interstitial_species=['Li'],
    charge_states={'V_Li': [-1, 0, 1]},
    supercell_min_atoms=128
)

pymatgen_perturbation_generator(
    input_structures=ordered_or_defect_structures,
    displacement_max=0.1,
    strain_percent=[-2.0, 2.0],
    n_structures=20,
    seed=0
)

ase_store_result(
    db_path='candidates.db',
    atoms_dict=structure['structure'],   # MUST use output_format='ase' — see note below
    key_value_pairs={
        'generator': 'substitution',
        'compound': structure['formula'],   # NOT 'formula' — see reserved keys below
        'campaign': 'cathode_screen_2026',
        'source_structure': 'LiCoO2_mp-24850'
    }
)

Inorganic Candidate Generation

Tool Catalogue

Phase 0 Tools: Composition Discovery

0A. — Oxidation-Balanced Enumeration

Inorganic Candidate Generation

Tool Catalogue

Phase 0 Tools: Composition Discovery

0A. — Oxidation-Balanced Enumeration

0B. `pymatgen_substitution_predictor` — ICSD-Based Substitution

0C. `mp_search_materials` — Template Structure Search

Phase 1-5 Tools: Structure Generation

1. `pymatgen_prototype_builder` — Seed Structure

2. `pymatgen_substitution_generator` — Ordered Enumeration of Site Replacements

3. `pymatgen_ion_exchange_generator` — Charge-Neutral Substitution

3A. `pymatgen_disorder_generator` — Add Configurational Disorder (Order → Disorder)

3B. Tool Selection: `disorder_generator` vs `substitution_generator`

4. `pymatgen_enumeration_generator` — Exhaustive Ordering of Disordered Structures

5. `pymatgen_sqs_generator` — Special Quasirandom Structures

6. `pymatgen_defect_generator` — Point Defect Supercells

7. `pymatgen_perturbation_generator` — Structural Ensemble / Augmentation

Workflow Phases

Phase 0: Composition Discovery (CONDITIONAL)

Strategy 1: Exhaustive Enumeration (Fast, Systematic)

Strategy 2: Template-Based Discovery (Structural Analogues)

Strategy 3: ICSD Substitution Patterns (Data-Driven)

Decision Tree for Phase 0

Phase 1: Seed Structure

Phase 2: Chemical Space Exploration

Phase 3: Resolve Disorder (if structures have partial occupancies)

Phase 4: Defect Generation (optional branch)

Phase 5: Perturbation / Augmentation

Connecting to the Rest of the Workflow

Saving to the ASE Database

Update Skills

Eval Harness

Ecc Tools Cost Audit

Code Tour

Rules Distill

Design System

Inorganic Candidate Generation

Tool Catalogue

Phase 0 Tools: Composition Discovery

0A. — Oxidation-Balanced Enumeration

Inorganic Candidate Generation

Tool Catalogue

Phase 0 Tools: Composition Discovery

0A. — Oxidation-Balanced Enumeration

0B. pymatgen_substitution_predictor — ICSD-Based Substitution

0C. mp_search_materials — Template Structure Search

Phase 1-5 Tools: Structure Generation

1. pymatgen_prototype_builder — Seed Structure

2. pymatgen_substitution_generator — Ordered Enumeration of Site Replacements

3. pymatgen_ion_exchange_generator — Charge-Neutral Substitution

3A. pymatgen_disorder_generator — Add Configurational Disorder (Order → Disorder)

3B. Tool Selection: disorder_generator vs substitution_generator

4. pymatgen_enumeration_generator — Exhaustive Ordering of Disordered Structures

5. pymatgen_sqs_generator — Special Quasirandom Structures

6. pymatgen_defect_generator — Point Defect Supercells

7. pymatgen_perturbation_generator — Structural Ensemble / Augmentation

Workflow Phases

Phase 0: Composition Discovery (CONDITIONAL)

Strategy 1: Exhaustive Enumeration (Fast, Systematic)

Strategy 2: Template-Based Discovery (Structural Analogues)

Strategy 3: ICSD Substitution Patterns (Data-Driven)

Decision Tree for Phase 0

Phase 1: Seed Structure

Phase 2: Chemical Space Exploration

Phase 3: Resolve Disorder (if structures have partial occupancies)

Phase 4: Defect Generation (optional branch)

Phase 5: Perturbation / Augmentation

Connecting to the Rest of the Workflow

Saving to the ASE Database

Update Skills

Eval Harness

Ecc Tools Cost Audit

Code Tour

Rules Distill

Design System

0B. `pymatgen_substitution_predictor` — ICSD-Based Substitution

0C. `mp_search_materials` — Template Structure Search

1. `pymatgen_prototype_builder` — Seed Structure

2. `pymatgen_substitution_generator` — Ordered Enumeration of Site Replacements

3. `pymatgen_ion_exchange_generator` — Charge-Neutral Substitution

3A. `pymatgen_disorder_generator` — Add Configurational Disorder (Order → Disorder)

3B. Tool Selection: `disorder_generator` vs `substitution_generator`

4. `pymatgen_enumeration_generator` — Exhaustive Ordering of Disordered Structures

5. `pymatgen_sqs_generator` — Special Quasirandom Structures

6. `pymatgen_defect_generator` — Point Defect Supercells

7. `pymatgen_perturbation_generator` — Structural Ensemble / Augmentation