pip install deepspeed

pip install transformers[deepspeed]

python -c 'from transformers import AutoModel; \
from deepspeed.runtime.zero.stage3 import estimate_zero3_model_states_mem_needs_all_live; \
model = AutoModel.from_pretrained("bigscience/T0_3B"); \
estimate_zero3_model_states_mem_needs_all_live(model, num_gpus_per_node=1, num_nodes=1)'

git clone https://github.com/microsoft/DeepSpeedExamples
cd DeepSpeedExamples
find . -name '*json'
# 查找使用 Lamb 优化器的示例
grep -i Lamb $(find . -name '*json')

deepspeed --num_gpus=2 examples/pytorch/translation/run_translation.py \
--deepspeed tests/deepspeed/ds_config_zero3.json \
--model_name_or_path google-t5/t5-small --per_device_train_batch_size 1 \
--output_dir output_dir --overwrite_output_dir --fp16 \
--do_train --max_train_samples 500 --num_train_epochs 1 \
--dataset_name wmt16 --dataset_config "ro-en" \
--source_lang en --target_lang ro

torchrun --nproc_per_node=8 --nnode=2 --node_rank=0 --master_addr=hostname1 \
--master_port=9901 your_program.py <normal cl args> --deepspeed ds_config.json

#SBATCH --job-name=test-nodes        # job name
#SBATCH --nodes=2                    # number of nodes
#SBATCH --ntasks-per-node=1          # crucial - only 1 task per dist per node!
#SBATCH --cpus-per-task=10           # number of cores per task
#SBATCH --gres=gpu:8                 # number of GPUs
#SBATCH --time 20:00:00              # maximum execution time (HH:MM:SS)
#SBATCH --output=%x-%j.out           # output file name

export GPUS_PER_NODE=8
export MASTER_ADDR=$(scontrol show hostnames $SLURM_JOB_NODELIST | head -n 1)
export MASTER_PORT=9901

srun --jobid $SLURM_JOBID bash -c 'python -m torch.distributed.run \
 --nproc_per_node $GPUS_PER_NODE --nnodes $SLURM_NNODES --node_rank $SLURM_PROCID \
 --master_addr $MASTER_ADDR --master_port $MASTER_PORT \
your_program.py <normal cl args> --deepspeed ds_config.json'

sbatch launch.slurm

# DeepSpeed 需要在只有一个进程的情况下也需要分布式环境
# 这在笔记本中模拟启动器
import os

os.environ["MASTER_ADDR"] = "localhost"
os.environ["MASTER_PORT"] = "9994"  # 如果出现 RuntimeError: Address already in use，修改此端口
os.environ["RANK"] = "0"
os.environ["LOCAL_RANK"] = "0"
os.environ["WORLD_SIZE"] = "1"

# 现在正常进行，加上 DeepSpeed 配置文件
training_args = TrainingArguments(..., deepspeed="ds_config_zero3.json")
trainer = Trainer(...)
trainer.train()

!git clone https://github.com/huggingface/transformers
!cd transformers; deepspeed examples/pytorch/translation/run_translation.py ...

%%bash

git clone https://github.com/huggingface/transformers
cd transformers
deepspeed examples/pytorch/translation/run_translation.py ...

deepspeed --num_gpus=2 your_program.py <normal cl args> --do_eval --deepspeed ds_config.json

from transformers.integrations import HfDeepSpeedConfig
from transformers import AutoModel
import deepspeed

ds_config = {...}  # deepspeed 配置对象或文件路径
# 必须在实例化模型之前运行以检测零 3
dschf = HfDeepSpeedConfig(ds_config)  # 保持此对象存活
model = AutoModel.from_pretrained("openai-community/gpt2")
engine = deepspeed.initialize(model=model, config_params=ds_config, ...)

from transformers.integrations import HfDeepSpeedConfig
from transformers import AutoModel
import deepspeed

ds_config = {...}  # deepspeed 配置对象或文件路径
# 必须在实例化模型之前运行以检测零 3
dschf = HfDeepSpeedConfig(ds_config)  # 保持此对象存活
model = AutoModel.from_config(config=your_custom_config)
engine = deepspeed.initialize(model=model, config_params=ds_config, ...)

#!/usr/bin/env python

# 本脚本演示了如何在无法将模型放入单个 GPU 的情况下使用 Deepspeed ZeRO 进行推理。
#
# 1. 使用 1 个 GPU 和 CPU 卸载
# 2. 或者使用多个 GPU
#
# 首先需要安装 deepspeed: pip install deepspeed
#
# 这里我们使用 3B 的 "bigscience/T0_3B" 模型，需要大约 15GB GPU 内存 - 因此 1 个大 GPU 或 2
# 个小 GPU 可以处理它。或者 1 个小 GPU 和大量 CPU 内存。
#
# 要使用更大的模型如 "bigscience/T0"，需要大约 50GB，除非你有一个 80GB GPU -
# 你需要 2-4 个 GPU。然后你可以调整脚本以处理更多 GPU，如果你想一次处理多个输入。
#
# 提供的 deepspeed 配置还启用了 CPU 内存卸载，所以如果有大量可用的 CPU 内存并且不介意速度变慢，你应该能够加载一个通常无法放入单个 GPU 的模型。如果你有足够的 GPU 内存，程序会在不卸载到 CPU 的情况下运行得更快 - 因此禁用该部分。
#
# 在 1 个 GPU 上部署：
#
# deepspeed --num_gpus 1 t0.py
# 或者：
# python -m torch.distributed.run --nproc_per_node=1 t0.py
#
# 在 2 个 GPU 上部署：
#
# deepspeed --num_gpus 2 t0.py
# 或者：
# python -m torch.distributed.run --nproc_per_node=2 t0.py

from transformers import AutoTokenizer, AutoConfig, AutoModelForSeq2SeqLM
from transformers.integrations import HfDeepSpeedConfig
import deepspeed
import os
import torch

os.environ["TOKENIZERS_PARALLELISM"] = "false"  # 避免 tokenizers 并行警告

# 分布式设置
local_rank = int(os.getenv("LOCAL_RANK", "0"))
world_size = int(os.getenv("WORLD_SIZE", "1"))
torch.cuda.set_device(local_rank)
deepspeed.init_distributed()

model_name = "bigscience/T0_3B"

config = AutoConfig.from_pretrained(model_name)
model_hidden_size = config.d_model

# 批量大小必须能被 world_size 整除，但可以大于 world_size
train_batch_size = 1 * world_size

# ds_config 注释
#
# - 如果你使用 Ampere 或更高版本的 GPU，启用 bf16 - 这将以混合精度运行并更快。
#
# - 对于较旧的 GPU，你可以启用 fp16，但它只适用于非 bf16 预训练的模型 - 例如，所有官方的 t5 模型都是 bf16 预训练的
#
# - 如果不想使用 CPU 卸载，将 offload_param.device 设置为 "none" 或完全删除 offload_param 部分
#
# - 如果使用 offload_param，你可以手动微调 stage3_param_persistence_threshold 以控制哪些参数保留在 GPU 上 - 值越大，卸载的大小越小
#
# 更多关于 Deepspeed 配置的详细信息请参阅
# https://huggingface.co/docs/transformers/main/main_classes/deepspeed

# 保持与 json 一致的格式，只是将 true/false 用小写表示
# fmt: off
ds_config = {
    "fp16": {
        "enabled": False
    },
    "bf16": {
        "enabled": False
    },
    "zero_optimization": {
        "stage": 3,
        "offload_param": {
            "device": "cpu",
            "pin_memory": True
        },
        "overlap_comm": True,
        "contiguous_gradients": True,
        "reduce_bucket_size": model_hidden_size * model_hidden_size,
        "stage3_prefetch_bucket_size": 0.9 * model_hidden_size * model_hidden_size,
        "stage3_param_persistence_threshold": 10 * model_hidden_size
    },
    "steps_per_print": 2000,
    "train_batch_size": train_batch_size,
    "train_micro_batch_size_per_gpu": 1,
    "wall_clock_breakdown": False
}
# fmt: on

# 下一行指示 transformers 在调用模型的 from_pretrained 方法时直接将模型拆分到多个 GPU 上。
#
# **必须在加载模型 AutoModelForSeq2SeqLM.from_pretrained(model_name) 之前运行**
#
# 否则模型将首先正常加载，仅在前向传播时拆分，这效率较低，且当 CPU 内存较少时可能会失败
dschf = HfDeepSpeedConfig(ds_config)  # 保持此对象存活

# 现在可以加载模型。
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# 初始化 Deepspeed ZeRO 并仅保留引擎对象
ds_engine = deepspeed.initialize(model=model, config_params=ds_config)[0]
ds_engine.module.eval()  # 推理

# Deepspeed ZeRO 可以在每个 GPU 上处理不相关的输入。所以对于 2 个 GPU，你可以一次处理 2 个输入。
# 如果使用更多 GPU，相应地调整输入数量。
# 当然，如果只有一个输入要处理，你需要将相同的字符串传递给所有 GPU
# 如果只使用一个 GPU，则只有 rank 0
rank = torch.distributed.get_rank()
if rank == 0:
    text_in = "Is this review positive or negative? Review: this is the best cast iron skillet you will ever buy"
elif rank == 1:
    text_in = "Is this review positive or negative? Review: this is the worst restaurant ever"

tokenizer = AutoTokenizer.from_pretrained(model_name)
inputs = tokenizer.encode(text_in, return_tensors="pt").to(device=local_rank)
with torch.no_grad():
    outputs = ds_engine.module.generate(inputs, synced_gpus=True)
text_out = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f"rank{rank}:\n   in={text_in}\n  out={text_out}")

$ deepspeed --num_gpus 2 t0.py
rank0:
   in=Is this review positive or negative? Review: this is the best cast iron skillet you will ever buy
  out=Positive
rank1:
   in=Is this review positive or negative? Review: this is the worst restaurant ever
  out=negative

python -c 'import torch; print(f"torch: {torch.__version__}")'
python -c 'import transformers; print(f"transformers: {transformers.__version__}")'
python -c 'import deepspeed; print(f"deepspeed: {deepspeed.__version__}")'

最快	内存最省
ZeRO-1	ZeRO-3 + 卸载
ZeRO-2	ZeRO-3
ZeRO-2 + 卸载	ZeRO-2 + 卸载
ZeRO-3	ZeRO-2
ZeRO-3 + 卸载	ZeRO-1

DeepSpeed¶

安装¶

通过 PyPI 安装¶

通过 Transformers 安装¶

内存需求¶

选择 ZeRO 阶段¶

DeepSpeed 配置文件¶

配置文件路径¶

嵌套字典¶

DeepSpeed 和 Trainer 参数¶

ZeRO 配置¶

ZeRO-1¶

NVMe 配置¶

DeepSpeed 功能¶

激活/梯度检查点¶

优化器和调度器¶

优化器¶

精度¶

批量大小¶

梯度累积¶

梯度裁剪¶

通信数据类型¶

部署¶

多 GPU 部署¶

多节点部署¶

使用 torchrun¶

使用 SLURM¶

笔记本¶

保存模型权重¶

ZeRO 推理¶

无 Trainer 的 DeepSpeed 集成¶

预训练模型¶

非预训练模型¶

无 Trainer 的 ZeRO 推理¶

生成¶

故障排除¶

DeepSpeed 进程在启动时被杀死¶

NaN 损失¶

资源¶