LLM显存占用计算器
计算公式:
\[ M = \frac{P \times Q \times 10^9}{8 \times (1024)^3} \times 1.2 \]
符号 |
描述 (中/英) |
M |
GPU 显存需求 (GB) / GPU memory required (GB) |
P |
模型参数量 (十亿) / Number of parameters (B) |
Q |
数值精度 (比特数) / Precision (bits) |
数值精度选项说明:
- FP32 / BF32 (32-bit):单精度浮点数(32 位)
- FP16 / BF16 (16-bit):半精度浮点数(16 位)
- FP8 (8-bit):8 位浮点数
- INT8 (8-bit integer):8 位整数
- INT4 (4-bit integer):4 位整数
- Q4_K_M (约 4.5-bit):一种流行的GGUF模型常用的量化格式
注:公式中的 1.2 系数表示额外 20% 的显存开销,是一个大体的预估值。