Name: Runners
Author: apache

スキルを検索.../

Runners | Skills Pool

PipelineOptions options = PipelineOptionsFactory.create();
options.setRunner(DirectRunner.class);
Pipeline p = Pipeline.create(options);

options = PipelineOptions()
options.view_as(StandardOptions).runner = 'DirectRunner'
p = beam.Pipeline(options=options)

--runner=DirectRunner

DataflowPipelineOptions options = PipelineOptionsFactory.as(DataflowPipelineOptions.class);
options.setRunner(DataflowRunner.class);
options.setProject("my-project");
options.setRegion("us-central1");
options.setTempLocation("gs://my-bucket/temp");

options = PipelineOptions([
    '--runner=DataflowRunner',
    '--project=my-project',
    '--region=us-central1',
    '--temp_location=gs://my-bucket/temp'
])

--experiments=use_runner_v2

--sdkContainerImage=gcr.io/project/beam_java11_sdk:custom

FlinkPipelineOptions options = PipelineOptionsFactory.as(FlinkPipelineOptions.class);
options.setRunner(FlinkRunner.class);
options.setFlinkMaster("[local]");

options.setFlinkMaster("host:port");

options = PipelineOptions([
    '--runner=FlinkRunner',
    '--flink_master=host:port',
    '--environment_type=LOOPBACK'  # or DOCKER, EXTERNAL
])

SparkPipelineOptions options = PipelineOptionsFactory.as(SparkPipelineOptions.class);
options.setRunner(SparkRunner.class);
options.setSparkMaster("local[*]");  # or spark://host:port

options = PipelineOptions([
    '--runner=SparkRunner',
    '--spark_master_url=local[*]'
])

# Direct Runner
./gradlew :runners:direct-java:validatesRunner

# Flink Runner
./gradlew :runners:flink:1.18:validatesRunner

# Spark Runner
./gradlew :runners:spark:3:validatesRunner

# Dataflow Runner
./gradlew :runners:google-cloud-dataflow-java:validatesRunner

@Rule public TestPipeline pipeline = TestPipeline.create();

// Set runner via system property
-DbeamTestPipelineOptions='["--runner=TestDataflowRunner"]'

./gradlew :runners:flink:1.18:job-server:runShadow

./gradlew :runners:spark:3:job-server:runShadow

./gradlew :runners:google-cloud-dataflow-java:worker:shadowJar

./gradlew :runners:flink:1.18:job-server:shadowJar

./gradlew :runners:spark:3:job-server:shadowJar

Runner	Location	Description
Direct	`runners/direct-java/`	Local execution for testing
Prism	`runners/prism/`	Portable local runner
Dataflow	`runners/google-cloud-dataflow-java/`	Google Cloud Dataflow
Flink	`runners/flink/`	Apache Flink
Spark	`runners/spark/`	Apache Spark
Samza	`runners/samza/`

Runner	Location	Description
Direct	`runners/direct-java/`	Local execution for testing
Prism	`runners/prism/`	Portable local runner
Dataflow	`runners/google-cloud-dataflow-java/`	Google Cloud Dataflow
Flink	`runners/flink/`	Apache Flink
Spark	`runners/spark/`	Apache Spark
Samza	`runners/samza/`

Option	Description
`--project`	GCP project
`--region`	GCP region
`--tempLocation`	GCS temp location
`--stagingLocation`	GCS staging
`--numWorkers`	Initial workers
`--maxNumWorkers`	Max workers
`--workerMachineType`	VM type

Option	Description
`--flinkMaster`	Flink master address
`--parallelism`	Default parallelism
`--checkpointingInterval`	Checkpoint interval

Option	Description
`--sparkMaster`	Spark master URL
`--sparkConf`	Additional Spark config

Runners

Apache Beam Runners

Overview

Available Runners

Runners

Apache Beam Runners

Overview

Available Runners

Direct Runner

Java

Python

Command Line

Dataflow Runner

Prerequisites

Java Usage

Python Usage

Runner v2

Custom SDK Container

Flink Runner

Embedded Mode

Cluster Mode

Portable Mode (Python)

Spark Runner

Java

Python (Portable)

Testing with Runners

ValidatesRunner Tests

TestPipeline with Runners

Portable Runners

Concept

Environment Types

Job Server

Runner-Specific Options

Dataflow

Flink

Spark

Building Runner Artifacts

Dataflow Worker Jar

Flink Job Server

Spark Job Server

Debugging

Direct Runner

Dataflow

Portable Runners

Clickhouse Io

Clickhouse Io

Claude Devfleet

Clickhouse Io

Ai First Engineering

Postgres Patterns