LLM显存占用计算器
    
        
        
    
    
        
        
    
    
    
    计算公式:
      \[ M = \frac{P \times Q \times 10^9}{8 \times (1024)^3} \times 1.2 \]
    
        
            | 符号 | 描述 (中/英) | 
        
            | M | GPU 显存需求 (GB) / GPU memory required (GB) | 
        
            | P | 模型参数量 (十亿) / Number of parameters (B) | 
        
            | Q | 数值精度 (比特数) / Precision (bits) | 
    
     数值精度选项说明:
      
        - FP32 / BF32 (32-bit):单精度浮点数(32 位)
- FP16 / BF16 (16-bit):半精度浮点数(16 位)
- FP8 (8-bit):8 位浮点数
- INT8 (8-bit integer):8 位整数
- INT4 (4-bit integer):4 位整数
- Q4_K_M (约 4.5-bit):一种流行的GGUF模型常用的量化格式
注:公式中的 1.2 系数表示额外 20% 的显存开销,是一个大体的预估值。