rm -r /tmp/test-clm; CUDA_VISIBLE_DEVICES=0,1 \\
python examples/pytorch/language-modeling/run_clm.py \\
--model_name_or_path openai-community/gpt2 --dataset_name wikitext --dataset_config_name wikitext-2-raw-v1 \\
--do_train --output_dir /tmp/test-clm --per_device_train_batch_size 4 --max_steps 200

{'train_runtime': 110.5948, 'train_samples_per_second': 1.808, 'epoch': 0.69}

rm -r /tmp/test-clm; CUDA_VISIBLE_DEVICES=0,1 \\
torchrun --nproc_per_node 2 examples/pytorch/language-modeling/run_clm.py \\
--model_name_or_path openai-community/gpt2 --dataset_name wikitext --dataset_config_name wikitext-2-raw-v1 \\
--do_train --output_dir /tmp/test-clm --per_device_train_batch_size 4 --max_steps 200

{'train_runtime': 101.9003, 'train_samples_per_second': 1.963, 'epoch': 0.69}

rm -r /tmp/test-clm; NCCL_P2P_DISABLE=1 CUDA_VISIBLE_DEVICES=0,1 \\
torchrun --nproc_per_node 2 examples/pytorch/language-modeling/run_clm.py \\
--model_name_or_path openai-community/gpt2 --dataset_name wikitext --dataset_config_name wikitext-2-raw-v1 \\
--do_train --output_dir /tmp/test-clm --per_device_train_batch_size 4 --max_steps 200

{'train_runtime': 131.4367, 'train_samples_per_second': 1.522, 'epoch': 0.69}

torchrun --nproc_per_node=2  trainer-program.py ...

CUDA_VISIBLE_DEVICES=0,2 torchrun trainer-program.py ...

CUDA_VISIBLE_DEVICES=2,0 torchrun trainer-program.py ...

CUDA_VISIBLE_DEVICES= python trainer-program.py ...

export CUDA_DEVICE_ORDER=PCI_BUS_ID

export CUDA_DEVICE_ORDER=FASTEST_FIRST

类型	NVlink	时间
2:DP	Y	110s
2:DDP	Y	101s
2:DDP	N	131s

在多个 GPU 上高效训练¶

可扩展性策略¶

单节点/多 GPU 配置的并行化策略¶

多节点/多 GPU 配置的并行化策略¶

数据并行（Data Parallelism）¶

DataParallel 与 DistributedDataParallel¶

ZeRO 数据并行（ZeRO Data Parallelism）¶

从简单的模型并行到流水线并行¶

张量并行（Tensor Parallelism）¶

数据并行 + 流水线并行¶

数据并行 + 流水线并行 + 张量并行¶

ZeRO 数据并行 + 流水线并行 + 张量并行¶

FlexFlow¶

GPU 选择¶

GPU 数量¶

GPU 顺序¶