截至目前(2024年6月),华为并未公开宣布部署 DeepSeek-R1-Distil-Qwen-70B 这一具体模型。此外,该模型名称看起来是将不同公司的模型进行了混合命名:
- DeepSeek 是深度求索(DeepSeek AI)公司发布的模型系列;
- Qwen 是通义实验室(阿里云)开发的千问大模型系列;
- “Distil” 通常指蒸馏(Distillation)后的轻量化版本;
- “R1” 可能是某个版本编号;
- “70B” 表示参数量约为 700 亿。
因此,“DeepSeek-R1-Distil-Qwen-70B” 并不是一个已知的、真实存在的公开模型,可能是误写或虚构的名称。
但我们可以基于类似规模的模型(如 Qwen-70B 或其他 70B 级别大模型)来估算在华为硬件(如昇腾 Ascend 910 系列)上部署所需的计算卡数量。
推理部署(Inference):
对于 70B 参数的模型:
- 使用 FP16 精度,模型显存需求约为:70B × 2 bytes = 140 GB;
- 若使用 INT8 量化,约为 70 GB;
- 若使用 FP8 或 4-bit 量化,可压缩至 40~60 GB。
在华为 Ascend 910B(单卡算力约 256 TOPS FP16,显存 32GB)平台上:
- 单卡 32GB 显存,FP16 下无法容纳 70B 模型;
- 需要模型并行 + 张量并行,通常至少需要 8~16 张 Ascend 910B 卡 才能支持 Qwen-70B 级别模型的推理(取决于量化和并行策略);
- 若使用 4-bit 量化(如 GPTQ),可能压缩到 50GB 以内,理论上 4~8 张卡 可支持。
训练部署(Training):
70B 模型全参数微调需要数千 GB 显存,通常需要 64 张以上 Ascend 910B 卡,并配合 ZeRO、模型并行、流水并行等技术。
结论:
若问题是:“华为部署一个类似 Qwen-70B 规模的模型,至少需要多少张昇腾卡?”
答案是:
- 推理部署(4-bit 量化):至少 4~8 张 Ascend 910B;
- 原始 FP16 推理:至少 8~16 张;
- 全量微调训练:至少 64 张以上。
⚠️ 注:目前没有名为 “DeepSeek-R1-Distil-Qwen-70B” 的公开模型,建议确认模型名称是否准确。如指代的是 DeepSeek 或 Qwen 系列中的某个 70B 模型,请具体说明。
如你能提供更准确的模型名称(如 Qwen-72B、DeepSeek-67B 等),我可以给出更精确的部署建议。
CDNK博客