大模型API测试实战：max_tokens、流式输出与性能指标全解析

June 22, 2026

当团队拿到一个全新的大语言模型时，开发者的第一反应往往是：“这模型响应有点慢啊。”究竟慢不慢，测一下就知道了。

基础接口测试方法

查看可用模型列表

curl -s "https://localhost/v1/models" \
  -H "Authorization: Bearer <API_KEY>" | python3 -m json.tool

基础对话连通性测试（max_tokens=10）

curl -s "https://localhost/v1/chat/completions" \
  -H "Authorization: Bearer <API_KEY>" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "GLM-5.1",
    "messages": [{"role": "user", "content": "Say hello"}],
    "max_tokens": 10
  }' | python3 -m json.tool

max_tokens 合法上限测试（32768）

curl -s "https://localhost/v1/chat/completions" \
  -H "Authorization: Bearer <API_KEY>" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "GLM-5.1",
    "messages": [{"role": "user", "content": "Say hello"}],
    "max_tokens": 32768
  }' | python3 -m json.tool

max_tokens 超限测试（262144，预期报错）

curl -s "https://localhost/v1/chat/completions" \
  -H "Authorization: Bearer <API_KEY>" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "GLM-5.1",
    "messages": [{"role": "user", "content": "Say hello"}],
    "max_tokens": 262144
  }' | python3 -m json.tool

返回结果示例：

{"error": {"code": "1210", "message": "max_tokens参数非法：限制数值范围[1,131072]"}}

长文本上下文窗口测试（检查长输入时的处理能力）

python3 -c "import json
long_text = 'Hello ' * 8000
payload = {
    'model': 'GLM-5.1',
    'messages': [{'role': 'user', 'content': long_text + 'Please reply with just OK'}],
    'max_tokens': 10
}
print(json.dumps(payload))" | curl -s "https://localhost/v1/chat/completions" \
  -H "Authorization: Bearer <API_KEY>" \
  -H "Content-Type: application/json" \
  -d @- | python3 -m json.tool

流式输出测试

curl -s "https://localhost/v1/chat/completions" \
  -H "Authorization: Bearer <API_KEY>" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "GLM-5.1",
    "messages": [{"role": "user", "content": "Say hi"}],
    "max_tokens": 100,
    "stream": true
  }'

封装为 Skill 后的模型性能报告

qwen3.6:35b

minimax-m3

glm-5.1

核心性能指标

max_tokens：接口允许的最大输出 token 数量。
TTFT（Time To First Token）：首 token 延迟，即从发出请求到收到第一个 token 的时间，反映模型的响应速度。
Throughput：生成吞吐量，指模型每秒可以输出的 token 数，衡量实际生成效率。
Long Context：测试输入上下文长度，评估模型处理长文本的能力。