豆包识图完胜DeepSeek,实测笑料不断:不识梁文锋、错批作业、坦克大战翻车
听闻 DeepSeek 的识图功能终于上线,我激动坏了!
多模态这块短板,难道要就此补齐?我立即点开 App 和官网瞟了一眼:

居然真的冒出来一个识图模式!太让人上头了!
我二话不说,甩出一张“梁爷爷”的图片,打算好好耍它一把。

等结果一出来,我当场就笑喷了。

我的认知彻底被刷新了。
眼前这位,竟然被它说成腾讯高级副总裁、微信之父张小龙。
我不死心,继续追问:这张脸到底是谁?

好家伙,世界观再次崩塌!原来刚才那两个人竟然是同一个?只是换了一身休闲打扮?

更绝的是,它还一本正经地列出了一二三四,说得有鼻子有眼!
行吧,我权且相信你,这人就叫“张小龙”。
可你为什么每次给出的答案都不一样啊?

这位穿蓝色外套的男子,简直成了谜一般的存在。
他一会儿是微信的张小龙,一会儿是快手的宿华,一会儿又能变成搜狗的王小川!
同一个休闲外套的男人,在它眼里还可以是百度创始人李彦宏。
往好听里说,这个功能充满惊喜;往难听里说,就是“一本正经的胡说八道”!
我倒不是要批判什么,反正,我笑得肚子都疼了。
好了,不逗大家了。
图片里这位其实是梁文锋:
梁文锋,正是 DeepSeek 深度求索的创始人兼 CEO,同时还是 幻方量化 High-Flyer 的联合创始人。他可是近年来中国 AI 领域举足轻重的人物。
整件事最搞笑的地方在于:DeepSeek 的大模型居然不认识自家的创始人!
可……它偏偏能把东哥认得死死滴:

态度还特别坚决,任凭我怎么忽悠都不改口。难道说,给提供显卡的才是“亲爹”?
论认人这个事儿,感觉还是包包更在行:

这事儿我足足乐了半天🤣。好了,不闹了……
再试一个特别实用的场景:给小学生拍照检查作业。
手头正好有一份绝妙素材:

这是一份四年级的试卷,正是眼前这届小学生的作业。而且,有人事先在上面写了一份藏着错误的答案。
我直接把这张图丢给它:

大约思考加作答花了 140 秒,最后给出了这样的结论:

这波操作还算靠谱!
它识别出了好几道带图的题目,并逐一批改,对的没判错,错的被它揪了出来。
光凭这一点,就足以说明它真的具备视觉理解能力,绝不是单纯依赖 OCR,否则根本理解不了这些图片题目。
为了进一步确认,我又丢给它一道错题:

这道题也是视觉题,图上标着两条虚线,并且试卷上的作答是错误的,就看它能不能把错误找出来。
以下是 DeepSeek 的作答:

它成功锁定了三道错题,并逐一进行了解析。
可第十题在指出错误之后,自己居然又给了一个错误的答案,这实在让人大跌眼镜。
第 10 题(选择题):
学生选了 C(140),正确选项是 B(139)。
解析:
舞蹈队原平均身高是 140.2 cm,红红加入后,平均身高降到了 139 cm(虚线 b 的位置)。
说明红红的身高必须很矮,拉低了总平均分。
如果新平均身高是 139 cm,红红的身高极大概率就是 139 cm(或者低于 139,但在给定选项里 B 最合适)。
它虽然正确辨认出了原本的平均身高和后来的平均身高,但在逻辑推导上翻了车。
要知道,平均身高从 140.2 被拉低到 139,说明红红的身高必定低于 139;如果等于或超过 139,均值根本不会被拖到这么低。
所以这道题的正确选项是:A!
这一点,豆包反而能轻轻松松答对:

而且豆包的回答速度非常快!
我日常对图片识别最大的两个需求,一个是认人识物,另一个就是批改作业。就目前来看,DeepSeek 在这两项上的表现都不尽如人意。
为了把测试做得再丰富一点,我又加了一项——让它看时钟:

它给出的时间是 6:00:50,这显然是错的!
我不信邪,叫它再确认一次:

它言之凿凿,表示肯定无误,精确到秒就是 6:00:50。
我也拿豆包试了一把:

豆包说的是 6:05:50,虽然也不是百分百精准,但已经相当接近了。以我们人类的眼光看,这个时间大概在 6:04:50 左右。
再追加一题:

我把这张图发过去,接着问:黄色坦克向右开两枪会怎么样?
DeepSeek 的回复如下:

下面再看看豆包的答案:

这道题你们怎么看?按照经典的坦克大战游戏逻辑,豆包的回答是对的。可如果仅凭我给出的截图,DeepSeek 的判断反而更贴近画面事实。
DeepSeek 能答对这一层,其实相当厉害。毕竟这张地图和常规布局不一样,它能抓住这么细微的差异,已经很不简单了。
正当我准备夸它几句:

它竟然当场改口了!
这下可以断定,它压根没什么主见;而且,我甚至怀疑最初的答案也只是瞎蒙的。
我又逼问了一轮:

它始终没有意识到问题的关键所在。
我突然发觉,这个例子其实很有代表性。
我分别问了 DeepSeek、豆包和 GPT-5.5,它们全都坚持要开三枪才能干掉老鹰。可见,它们都认出了这是坦克大战,然后机械地套用标准答案。
而这个问题,最终只有 Opus4.8 能够反思并指出核心:

我天,Opus4.8 才是真正的神级存在!
话说远了,再回到 DeepSeek!
我对 DeepSeek 一直怀有好感,但这次推出的识图功能,确实显得有点儿戏了。