截至目前(2024年6月),DeepSeek 并未公开发布名为“DeepSeek 70B int8”的官方模型,因此“DeepSeek 70B int8”可能是对某类大模型(如 LLaMA、Qwen、DeepSeek-MoE 或其他)的误解或误称。但我们可以基于当前主流大模型推理框架(如 vLLM、Hugging Face Transformers、AWQ、GPTQ 等)和量化技术,来估算一个 700亿参数(70B)模型在 int8 推理下的最低显存需求。
? 70B 模型 int8 推理的显存估算
1. 参数存储(int8 量化)
- 原始 FP16 模型:每个参数占 2 字节
- int8 量化后:每个参数占 1 字节
70B 参数 × 1 byte = 70 GB
这只是模型权重本身,还未包括:
2. 推理过程中的额外开销(KV Cache、激活值、临时缓冲区等)
- KV Cache:在生成文本时,需要缓存注意力键值对,显存占用与 序列长度 × 批量大小 × 层数 × 隐藏维度 成正比。
- 对于 70B 模型,典型配置下(如 seq_len=2048, batch_size=1),KV Cache 可能额外占用 10~20 GB。
- 其他中间激活和框架开销:约 5~10 GB
✅ 最低显存需求估算(int8 推理)
| 项目 | 显存占用 |
|---|---|
| 模型权重(int8) | ~70 GB |
| KV Cache(中等长度) | ~15 GB |
| 其他开销 | ~5 GB |
| 总计 | 约 90 GB |
? 实际运行建议
- 单卡显存 ≥ 80 GB 才可能勉强运行,但通常需要:
- 多卡并行(如 2×NVIDIA A100 80GB 或 H100 80GB)
- 使用模型并行(Tensor Parallelism)或流水线并行(Pipeline Parallelism)
- 当前消费级显卡(如 RTX 3090/4090,24GB)无法单独运行 70B int8 模型
- 推荐使用:
- NVIDIA A100 80GB × 2(通过 tensor parallelism)
- 或 H100 SXM 集群
- 或使用 vLLM + int8 量化支持(部分支持)
? 补充说明
- 目前真正支持 70B 模型 int8 推理 的框架包括:
- vLLM(支持 AWQ/GPTQ,部分支持 int8)
- HuggingFace Transformers + bitsandbytes(支持 8-bit 推理)
- TensorRT-LLM(支持 int8 优化)
- 但 DeepSeek 官方目前最大公开模型是 DeepSeek-V2 或 DeepSeek-MoE,并非 70B dense 模型。
✅ 结论
要运行一个 70B 参数模型的 int8 推理,最低显存要求约为 90 GB,因此:
- 至少需要 2×80GB GPU(如 A100/H100)
- 单卡无法运行
- 目前没有公开的 “DeepSeek 70B” 模型,可能是混淆了其他模型(如 LLaMA-3-70B)
如果你指的是 DeepSeek-MoE 或 DeepSeek-Coder 等特定模型,请提供更准确的名称,我可以给出更具体的分析。
CDNK博客