罗福莉与中国AI逆袭:MiMo-V2.5-Pro亲手超越DeepSeek全记录
建议收藏,2026 年 AI 圈最值得记住的名字。转发给每一个还在追 GPT 的朋友。
先说一个比小说还离谱的故事
2025 年 1 月,一位 95 后女生的成果让英伟达一周内蒸发 4 万亿市值。
她叫罗福莉,DeepSeek-V2 的核心开发者。那个她参与研发的模型,性能匹敌甚至超越 GPT-4,训练成本却不到对方的百分之一,直接让英伟达的股价跌出一个深坑。
随后她离开了 DeepSeek。
雷军开出千万年薪,把她请到了小米。
所有人都等着看她笑话——一家手机厂商,真能在 AI 赛道翻起浪花?
五个月后,答案来了:
MiMo-V2.5-Pro,1.02 万亿参数,开源模型全球第一,亲手超越了她曾参与缔造的 DeepSeek-V4-Pro。
这样的剧本,编剧都不敢写。
👩💻 罗福莉:从“没科研天赋”到AI天才少女
在了解模型参数之前,先读懂这个人,才能真正理解 MiMo 为什么如此炸裂。
逆袭人生
| 时间 | 事件 |
|---|---|
| 1995年 | 出生于四川宜宾,高中就读宜宾一中“清北班” |
| 高考 | 考入北京师范大学计算机专业,大一陷入迷茫,期末成绩不理想 |
| 大二 | 曾被质疑“缺乏科研天赋”,一度动了转行的念头 |
| 大三 | 进入北大语言计算实验室实习,用3个月自学 Python,投出第一篇顶会论文 |
| 2019年 | 北大硕士期间,在 ACL 顶会发表 8 篇论文(2篇一作),硕士累计 20+ 篇 |
| 2020年 | 加入阿里达摩院(阿里星计划),主导开发多语言模型 VECO |
| 2022年 | 转战幻方量化,后加入 DeepSeek |
| 2024年 | 成为 DeepSeek-V2 核心开发者 |
| 2025年11月 | 雷军以千万年薪将她挖到小米,出任 MiMo 大模型团队负责人 |
| 2025年12月 | 发布并开源 MiMo-V2-Flash |
| 2026年4月 | MiMo-V2.5-Pro 登顶全球开源第一 |
她曾这样记录那段最艰难的时光:
“大年初五回到学校后,我几乎一直在赶稿,直到正月十五。躺在床上,听着窗外的烟花声,眼泪止不住地往下掉。”
从被质疑“没天赋”到国际顶会 20+ 篇论文,从迷茫的大一新生到年薪千万的 AI 掌舵者。
这样的故事,比任何模型参数都更有感染力。
🔥 MiMo-V2.5-Pro:手机公司做出来的全球第一
说回模型本身。4 月 28 日凌晨,小米正式开源 MiMo-V2.5 系列,两个版本:
| 维度 | MiMo-V2.5 | MiMo-V2.5-Pro |
|---|---|---|
| 定位 | 全模态基座 | 旗舰 Agent |
| 总参数 | 310B(3100亿) | 1.02T(万亿级) |
| 激活参数 | 15B | 42B |
| 上下文 | 1M | 1M |
| 多模态 | ✅ 文本+图像+视频+音频 | ❌ 纯文本 |
| 开源协议 | MIT(可商用) | MIT(可商用) |
关键数据:真的超越 DeepSeek V4 Pro 了吗?
小米官方公布的基准测试结果:
| 基准测试 | MiMo-V2.5-Pro | 对比 |
|---|---|---|
| GDPVal-AA (Elo) | 1581 分 | 超越 DeepSeek-V4-Pro、Kimi K2.6、GLM-5.1 |
| ClawEval (pass³) | 63.8% | 超越 DeepSeek-V4-Pro |
| SWE-bench Pro | 57.2 分 | 接近 Claude Opus 4.6(57.3分) |
| SWE-bench Verified | 78.9% | 低于 DeepSeek V4 Pro(80.6%) |
| t3-bench | 72.9% | — |
| Token 效率 | 单轨迹约 7 万 Token 即达 64% 通过率 | 相比 Kimi K2.6 省 42% |
Token 效率是一个显著亮点。 在 ClawEval Agent 任务中,MiMo 用约 7 万 Token 就取得了 64% 的通过率,官方数据显示相比 Kimi K2.6 节省了 42% 的 Token,整体 Token 效率提升 40%-60%。但需要说明,这一优势主要集中在 Agent 场景,在其他类型的任务中未必同样突出。
但客观来看,它并非全方位碾压。SWE-bench Verified 上 MiMo 的 78.9% 低于 DeepSeek V4 Pro 的 80.6%。36 氪的评测甚至直接指出:“综合实力难敌 DeepSeek”,长链推理能力仍有差距,定价也高于预期。
所以更精确的表达是:在 Agent 能力和 Token 效率上实现反超,但综合编码和推理层面还未全面领先。
🎬 不看广告看疗效:三个真实案例
数据之外,再看看 MiMo-V2.5-Pro 能做到什么。
案例 1:4.3 小时写出北大编译器并拿下满分
北大《编译原理》课程的经典大作业——用 Rust 实现一个 SysY 编译器,包括 lexer、parser 和 RISC-V 汇编后端。
- • 用时:4.3 小时
- • 工具调用:672 次
- • 结果:隐藏测试集 233/233 满分
- • 对比:计算机专业学生通常需要数周才能完成
案例 2:11.5 小时自主开发视频编辑器
- • 用时:11.5 小时
- • 工具调用:1,868 次
- • 结果:一个功能完整的视频编辑器,全程自主完成
案例 3:从零开发一个“macOS”
- • 结果:包含了开机动画、用户登录、窗口管理、54 个原生应用的完整桌面系统
- • 对的,一个 AI 模型自己写出了一个操作系统界面
这三个案例传递的核心信息是:MiMo-V2.5-Pro 的 Agent 能力已经可以支撑持续数小时到十几小时的独立工作,不中断、不崩溃、不走偏。
⚔️ 最戏剧性的一幕:她超越了自己打下的江山
这个故事最精彩的地方,不在参数,而在人。
罗福莉在 DeepSeek 参与研发的 V2 模型,让 DeepSeek 一战成名。
然后她离开了。
去了小米。
今年 3 月,MiMo-V2-Pro 匿名上线 OpenRouter 平台。业内不少人在看到表现后惊呼:“这是 DeepSeek V4 要发布了吗?”
结果不是 DeepSeek,而是她新做的 MiMo。
自己的模型被误认为是老东家的新品——这大概是对一个 AI 工程师最高的认可。
现在,她带着 MiMo-V2.5-Pro 回来了,GDPVal-AA 跑分直接超过了 DeepSeek-V4-Pro。
亲手缔造了 DeepSeek 的传奇,又亲手超越了它。
好莱坞恐怕都不敢这么写剧本。
💰 白嫖机会:100 万亿 Token 免费送
光看故事不够,来看一些实在的福利。
小米同步推出了百万亿 Token 创造者激励计划:
| 项目 | 内容 |
|---|---|
| 总量 | 100 万亿 Token 权益 |
| 时间 | 2026年4月28日 - 5月28日 |
| 费用 | 免费 |
| 申请地址 | 100t.xiaomimimo.com |
并且开源首日,MiMo 已经完成 7 家芯片的适配:
阿里平头哥、亚马逊 AWS、AMD、百度昆仑芯、燧原科技、沐曦、天数智芯。
推理框架也同步实现了 SGLang 和 vLLM 的 Day 0 适配。
MIT 协议 + 7 家芯片适配 + 主流框架即插即用 = 部署门槛降到了最低。
⚠️ 说几句大实话
不吹不黑,MiMo-V2.5-Pro 有几个需要注意的点:
-
- “超越 DeepSeek”是带条件的——在 Agent 和 Token 效率上确实超越,但综合能力(尤其是长链推理)还有差距,36 氪的评测也确认了这一点。
-
- 定价不算便宜——海外 API 输入每百万 Token 3 美元,输出每百万 Token 12 美元,比 DeepSeek 贵不少。不过考虑到 Token 效率更高,实际总成本可能反而更低。
-
- 营销味道有点重——小米发布会的节奏很手机,“全球第一”的说法在社交媒体上争议不小。
-
- 但“开源第一”是实打实的——MIT 协议、1M 上下文、首日 7 家芯片适配,这些靠的不是营销。
🎯 三句话总结
-
- 罗福莉:从“没天赋”到千万年薪,从打造 DeepSeek 到超越 DeepSeek,2026 年 AI 圈最强逆袭。
-
- MiMo-V2.5-Pro:Agent 能力开源全球第一,Token 效率碾压级表现,但综合能力仍在追赶。
-
- 现在就能白嫖:100 万亿 Token 免费,MIT 开源,赶紧上车。
最后说一句:
2026 年做 AI,不是非得追着海外跑。国产开源已经可以打了——而且打得非常漂亮。
📚 延伸阅读
- • 2026 大模型横评:DeepSeek V4 Pro vs MiMo V2.5 Pro vs Kimi K2.6 vs GLM-5.1
- • 国产模型能替代 Claude 吗?斯坦福报告:差距仅剩 2.7%
- • MiMo-V2.5 官方博客
- • 100万亿Token申请地址