OpenAI新模型“草莓”发布：GPT o1真实测评分析

rev(东↑西↓) 字数: 9243 阅读耗时: 23 分钟 2024/09/15 博客独享热度: 33 评论: 0

OpenAI新模型“草莓”发布：GPT o1真实测评分析

昨晚，OpenAI正式发布了新模型ChatGPT o1-preview，广为流传的“草莓”实际上是该模型的一个计划名称。

如果称其为一个跨时代的产品，那么我们本应期待一场盛大的发布会。

“草莓”计划包含了这两个新模型，今天我将从实际应用的角度出发，对这两个模型进行深入评测。原本此评测并不在我的计划之内，但看到早晨的几篇测评文章充斥着无脑吹捧，误导了大众，令我决定进行一次真实的体验分享。

本篇测评仅代表我个人的使用体验，重点是测评o1-preview这个模型，而mini模型因使用频率较低而不进行评测。如果您有不同的看法或问题，请在评论区留言或加入交流群进行讨论。

GPT o1的核心特性

GPT o1可以被视为GPT-4o的Agent实现，可能只是对GPT-4的一次微调。

这并非无根据，输出内容的质量以及模型自身的回答都可以证明这一点。

Agent有多种不同的架构，GPT o1采用了任务分配的方式，将一个复杂的问题拆解为多个按顺序排列的小问题。显然，GPT o1在问题拆分上表现出了一定的优先级。

在关于9.11与9.9的问题上，GPT o1未能给出正确答案。

在测试了一些复杂问题后，GPT o1在逻辑推理和问题解决能力上显著优于原模型GPT-4，这一点毫无疑问。OpenAI公布的对比数据也显示，GPT o1在推理和代码生成能力方面优于GPT-4。

关于代码生成的具体测评就不在这里展开了，因为每个人的体验不同，容易引起误解。

GPT o1的长上下文处理能力

据OpenAI官方称，GPT o1支持128K token的上下文，最大输出token数量为64K。

然而，经过多次实际测试，我发现GPT o1在输出1万字文章时，仅能生成约2000字，这与官方声明存在显著差距。

由于输出长度的实际问题，也是很多用户所关注的焦点。

与Claude的比较

在相同的提示词下进行写作，大家可以自行比较结果的优劣，我在此不一一评判。

但在词语解释方面却颇具趣味性。

针对“无脑吹捧”，我让GPT o1与Claude分别进行解释。

这是Claude生成的解释卡片。

对此结果，我只能说：哈哈哈哈哈哈哈哈哈！

GPT o1的API定价

以下是GPT o1 preview的官方API价格：

乍一看，GPT o1的API价格似乎比GPT-4o稍贵。

实际上，长期使用后，大部分企业可能会发现难以承担这样的成本。

因为在Agent运行过程中，也会计算token费用。

可能简单的问题就需要消耗几千个token来解析，这意味着回答一个问题的成本可能高达十元。

这确实是十分昂贵！

总结

OpenAI新发布的GPT o1在引入Agent后，能力有所提升，但并未达到令人惊艳的程度。在长文本生成能力上，o1仍显不足，且API价格过高，实际应用难度较大。