OpenAI API 禁用思考模式：使用 reasoning_effort=none 的完整指南

June 22, 2026

在调用 OpenAI 兼容接口时，reasoning_effort 是一个关键参数，目前已得到 Ollama 0.21 及以上版本的支持，可选的赋值包括 "none"、"low"、"medium"、"high"。

要彻底关闭模型的“思考模式”，只需在 payload 中显式设置 "reasoning_effort": "none"。一个完整的请求体示例如下：

{
    "reasoning_effort": "none",
    "top_p": 0.8,
    "min_p": 0.1,
    "frequency_penalty": 1,
    "stream": false,
    "max_tokens": 4096,
    "top_k": 20,
    "temperature": 0.7,
    "messages": [
        {
            "role": "user",
            "content": "…"
        },
        {
            "role": "system",
            "content": "你是一个有5年多临床经验的中级医师…"
        }
    ],
    "model": "qwen3.6:35b"
}

在 Postman 中进行实际验证时，可以看到服务端正确接受了这一参数，且不再返回多余的思考过程。

在此之前，曾尝试使用 "enable_thinking": false 来控制思考模式，但该选项并未生效。改用 reasoning_effort 后，行为才符合预期。

当思考模式未被正确关闭时，接口返回内容中会夹杂大量无用的推理片段，不仅影响可读性，还会显著拖慢响应速度，如下图所示：

需要注意的是，不同的 OpenAI 兼容实现在处理思考模式时行为仍可能存在差异，因此在项目集成前，建议通过自动化测试对接口能力进行系统性验证。可以借助 Claude Code 等工具，快速构建覆盖多场景的 API 测试流程。

此前测试中还发现了一些值得关注的问题，供排查时参考：