Claude Opus 4.7 全面评测：编程登顶、视觉飞跃，却染上「不说人话」的怪病

May 13, 2026

过去一周，Claude 频繁崩溃，果然是在为新品铺路。昨晚十点半，Claude Opus 4.7 如期登场。其热度之高，从我自建的全网 AI 情报监控来看，凡一条消息被三个精选信源同时报道，便算得上重要；五六个信源齐发已属爆款，而 Opus 4.7 竟引来 10 余家信源同步推送，震惊得我一时语塞。

目前该模型已全渠道上线。我于夜里十点半落地，打开手机即发现已可调用。

Claude Code 中也同步更新。

上下文依然保持 1M，不做减法，体验丝滑。最让人满意的是，凌晨三点，我的当周用量额度直接被重置，Anthropic 难得做了一件体贴的事。

用上 Claude 这么久，总算等来了一回人性化操作。

不少朋友或许会担心 KYC 或身份认证带来的风险。我眼下确实没有稳妥解法，只能视作一柄悬顶之剑。创作能力上实在找不到替代品，能跟 Claude 掰手腕的对手尚未出现，否则我早该换掉了。如今心态便是：用一天算一天，毕竟模型本身足够强大，配合 Claude Code 的 Agent 框架，实在难舍。

说回 Claude Opus 4.7。

定价与 4.6 持平，输入每百万 token 5 美元，输出 25 美元，纹丝未动。

跑分不必细说，行业风气便是「赢者通吃」，该拔高的基准都拔高了，若不全面取胜，厂商也没颜面公之于众。

最有趣的是，官方数据表明 Opus 4.6 在多数性能指标上不敌 GPT-5.4，这是 Anthropic 首次坦承其在编程方面略逊一筹。这一结论与我的实际感受吻合：许多反复出现、难以根除的 Bug，GPT-5.4 竟能一一解决；只可惜，它在创作与用户体验设计上堪称灾难，简直是一大坨难以名状的污糟。

Claude 仿佛天生懂我想要的交互，明白何为丝滑的用户体验；而 GPT-5.4 产出的界面，作为设计师的我实在用不明白，活脱脱像是给黑客准备的暗网后台。

创作能力几乎为零。在影视圈，大部分编剧都依赖 Claude 润色剧本，你很难见到哪位优秀编剧用 GPT-5.4 辅助创作。顶尖创作者们用脚投票，选择不言自明。

这便是显著的差距，Opus 4.5 与 4.6 胜在均衡全面。但此番实测 4.7，感受又添几分异样。

有几个关键更新点，我们一个个来说。

第一，隐性提价：Tokenizer 变更
Anthropic 更换了新分词器。官方博客解释，此举改进了文本处理，代价是同一输入会被切分成更多 token，增幅在 0% 到 35% 之间，视内容而异。

也就是说，同一段代码、文档或提示词，丢给 4.7 会比 4.6 多消耗最多 35% 的 token。效果确实更优，但 token 成本实打实地上涨。尽管 API 单价未调整，同等任务多出三成的 token 耗用量，最终账单难免水涨船高。

官方的说法是，虽然单次请求消耗更多 token，但模型更精确、一次成功率提高，减少了反复修改的回合，总花费不增反降。逻辑上无可指摘，却有一个前提——你的任务恰好是 4.7 擅长的高复杂度任务。若你日常用 Claude 做些提升不明显的场景，比如知识管理、方案创作或数据分析，很可能只是白白多烧了 token。残酷的现实是，顶级模型的 token，已然成为这个时代愈发金贵的资源。

第二，视觉能力飞跃式提升
此前提及的 XBOW 视觉测试，4.6 得分 54.5%，4.7 骤升至 98.5%。这家 2024 年成立的公司，专注让 AI 担当白帽黑客，进行自主渗透测试，今年三月刚获 1.2 亿美元融资，是该赛道领跑者。他们考较模型的视觉能力，因为渗透测试要求 AI 理解纷繁复杂的浏览器界面、管理后台、开发者工具中的网络请求与报错弹窗等，画面信息密度极高，视觉差一点便会功亏一篑。4.6 仅略过半数的识别准确率，到 4.7 近乎完美通关，这项跃升的价值不容小觑。

究其根本，除了多模态能力进步，还因为 4.7 支持更高的图像分辨率，最长边可达 2576 像素，约 375 万像素，是旧模型的 3 倍以上。Anthropic 自己的视觉基准测试同样显著提升。

从前我时常偷懒，直接抛给 4.6 一张截图，告诉它「这里有问题」或「数据不对」。它大概能领会意图，细节却常常辨不清。结果错误频发，我们一个信息密集的网站就是典型案例，各类卡片布局和兼容逻辑，当初跟 4.6 反复沟通了许久。

反复修改中，文字识别错误更是家常便饭。如今再测，识别错误近乎绝迹。这对知识工作者堪称强力增益。可以畅想：律师丢给它几十页合同扫描件，它能准确抓取日期、条款编号与金额；分析师给一份年报 PDF，它能逐根解析每一条柱状图数据；产品经理甩一堆竞品截图，它能逐一分析界面组件。这一升级诚意十足，多模态能力明显加强。

第三，审美意识大幅进步
过去涉及用户体验与美学要求时，4.6 给我的感觉总是不尽如人意，比上不足比下有余。与 Gemini 的差距肉眼可见，视觉效果时常糟糕，交互设计呆板，往往以完成任务为导向，而非以用户为中心。为此，我被迫在 CLAUDE.md 里塞进大段限制指令。

而这次受益于多模态能力，我用 4.7 顺手搭建了此前搁置的公司招聘网站，效果出乎意料。眼下我们急需人手，正疯狂扩张，恰好需要这样一个页面。我只口头描述了需求，没有启用任何 Skill，甚至连 Frontend Skill 都删掉了。

它照常列出计划，随即动工。

首轮产物已基本可用，我又微调两轮，添上 logo 与其余职位信息，前后仅 20 分钟便打造出一个像模像样的招聘站。

我自己还是相当满意的。

第四，开始「不说人话」了
这是最让我失望的一点。我平时大量使用 Claude 进行知识管理，无论是辅助创作、搜集资料、撰写报告、制作 PPT 或策划方案，4.6 的文字品味都无可挑剔。反观 GPT-5.4 以及国内诸多模型，纯粹为编程而生，人味儿荡然无存，GPT-5.4 尤其如此。此前我无法忍受 GPT-5.4，正因为其满口废话，网上有个案例能完美诠释。

什么「稳稳接住」「根因」「按这条切」「收口」「压实」之类的黑话，懂的都懂，令人头痛。

这次用 4.7 开发招聘网站时，不好的征兆闪现。我对文字一向敏感，瞥见这几句时，PTSD 瞬间被激活。

「再也不会撞」「不会爬到logo头上」，外加莫名冒出的破折号，差点把我逼应激。

随即我让它用同一文风续写昨天的文章，心凉了半截。

狗屎，真是一坨狗屎。一股伪人的气味迎面扑来，我真服了，好好的 Claude 怎么也说开了胡话。

搜了搜社区，果然，我不是孤例。

说实话，心态有点崩了。

第五，若干新功能
Claude 原有的 effort 档位分为低、中、高、最高四档。4.7 在「高」与「最高」之间新增了「xhigh」（extra high），填补了两者间的空白。此前 Max 档位过于烧钱，High 档偶尔又显笨拙，如今这个中间值被设为默认，恰到好处。

另一项是 /ultrareview 命令，这是 Claude Code 中的全新代码审查工具，能逐行扫描代码，揪出所有 Bug 与设计缺陷。它可不便宜，单次运行可能花费 5 至 20 美元。Pro 及 Max 用户享有 3 次免费试用额度，价格确实不菲。

接着是 Cyber Verification Program。这或许是最易被忽略、却最值得关注的亮点。Anthropic 开通了正式渠道，允许合法的安全研究、渗透测试与红队演练者申请使用 Claude 原本受限的能力。申请入口设在 claude.com/form/cyber-use-case。

背景是，以往白帽团队想用 Claude 进行漏洞研究或渗透测试时，常被系统一刀切拒绝——模型无法分辨恶意与合法，为保安全一律封堵。如今 Anthropic 表示，合法从业者可提交申请，经特殊审核即可定向开通。

AI 行业正步步走向这一模式。当初 Claude Mythos 过于强大，不敢轻易向大众开放，唯恐酿成事故。然而，全拒与全开之间，需要身份核验与分级授权的中间地带。这一思路一旦跑通，后续将在医疗合规研究、金融模拟攻防、生物合规用药乃至军工合法研发等场景大量复用。在我看来，这是一个具备长远产业价值的设计。

Claude Opus 4.7 的评测就到这里。编程与视觉能力的提升令我欣喜，但一个曾经文字品味出众的模型，又一次在「不说人话」上栽了跟头。说实话，我现在也有种被稳稳接住的无力感。三年了，从 GPT-3.5 一路走来，我亲眼看着这些模型一个个变得更聪明、更能打，基准测试不断刷榜，SWE-bench 居高不下。同样这三年，我也眼睁睁看着它们挨个丧失说人话的能力。所有公司都在疯狂卷编程，编程，还是编程。我并非否认编程的价值，我自己是 Claude Code 的重度用户，公司内部半数工具都由我用 Claude Code 亲手搓出，编程能力对我至关重要。但一个模型，不该只是一个编程工具。语言，是人类一切智力活动的根基。一个好的语言模型，理当能写小说、作诗、写散文，能陪伴你聊深夜三点那些难眠的心事。可如今的大模型，仿佛除了代码便所剩无几。或者说，一切非量化的、缺乏直接商业价值的能力，都在无声中退步，被系统性地牺牲了。这事，真的挺悲哀。