OpenAI API 禁用思考模式:使用 reasoning_effort=none 的完整指南
在调用 OpenAI 兼容接口时,reasoning_effort 是一个关键参数,目前已得到 Ollama 0.21 及以上版本的支持,可选的赋值包括 "none"、"low"、"medium"、"high"。

要彻底关闭模型的“思考模式”,只需在 payload 中显式设置 "reasoning_effort": "none"。一个完整的请求体示例如下:
{
"reasoning_effort": "none",
"top_p": 0.8,
"min_p": 0.1,
"frequency_penalty": 1,
"stream": false,
"max_tokens": 4096,
"top_k": 20,
"temperature": 0.7,
"messages": [
{
"role": "user",
"content": "…"
},
{
"role": "system",
"content": "你是一个有5年多临床经验的中级医师…"
}
],
"model": "qwen3.6:35b"
}
在 Postman 中进行实际验证时,可以看到服务端正确接受了这一参数,且不再返回多余的思考过程。

在此之前,曾尝试使用 "enable_thinking": false 来控制思考模式,但该选项并未生效。改用 reasoning_effort 后,行为才符合预期。
当思考模式未被正确关闭时,接口返回内容中会夹杂大量无用的推理片段,不仅影响可读性,还会显著拖慢响应速度,如下图所示:

需要注意的是,不同的 OpenAI 兼容实现在处理思考模式时行为仍可能存在差异,因此在项目集成前,建议通过自动化测试对接口能力进行系统性验证。可以借助 Claude Code 等工具,快速构建覆盖多场景的 API 测试流程。
此前测试中还发现了一些值得关注的问题,供排查时参考:
