Name: Py Data
Author: stevenke1981

資料處理與分析

Quick Start（30 秒上手）

import polars as pl

# 讀取 CSV → 篩選 → 聚合 → 輸出
result = (
    pl.scan_csv("sales.csv")           # 延遲讀取
    .filter(pl.col("amount") > 100)    # 篩選
    .group_by("category")              # 分組
    .agg(
        pl.col("amount").sum().alias("total"),
        pl.len().alias("count"),
    )
    .sort("total", descending=True)
    .collect()                         # 觸發執行
)
print(result)

核心概念

1. pandas 2.x — Arrow 後端與 Copy-on-Write

pandas 2.x 引入 PyArrow 後端，大幅改善記憶體效率與型別支援：

import pandas as pd

# 使用 Arrow 後端（更省記憶體、支援更多型別）
df = pd.read_csv("data.csv", dtype_backend="pyarrow")

# Copy-on-Write（pandas 3.0 預設啟用）
pd.options.mode.copy_on_write = True
df2 = df[["col_a", "col_b"]]  # 不立即複製，修改時才複製
df2["col_a"] = 0               # 此時才觸發複製

資料處理與分析

Quick Start（30 秒上手）

import polars as pl

# 讀取 CSV → 篩選 → 聚合 → 輸出
result = (
    pl.scan_csv("sales.csv")           # 延遲讀取
    .filter(pl.col("amount") > 100)    # 篩選
    .group_by("category")              # 分組
    .agg(
        pl.col("amount").sum().alias("total"),
        pl.len().alias("count"),
    )
    .sort("total", descending=True)
    .collect()                         # 觸發執行
)
print(result)

核心概念

1. pandas 2.x — Arrow 後端與 Copy-on-Write

pandas 2.x 引入 PyArrow 後端，大幅改善記憶體效率與型別支援：

import pandas as pd

# 使用 Arrow 後端（更省記憶體、支援更多型別）
df = pd.read_csv("data.csv", dtype_backend="pyarrow")

# Copy-on-Write（pandas 3.0 預設啟用）
pd.options.mode.copy_on_write = True
df2 = df[["col_a", "col_b"]]  # 不立即複製，修改時才複製
df2["col_a"] = 0               # 此時才觸發複製

Py Data

資料處理與分析

Quick Start（30 秒上手）

核心概念

1. pandas 2.x — Arrow 後端與 Copy-on-Write

Py Data

資料處理與分析

Quick Start（30 秒上手）

核心概念

1. pandas 2.x — Arrow 後端與 Copy-on-Write

2. Polars — 延遲執行與表達式 API

3. NumPy — 向量化運算基礎

Visualization Expert

Data Analyst

Huggingface Hub

Multi Reviewer Patterns

Dbt Transformation Patterns

Startup Financial Modeling