罗福莉与中国AI逆袭：MiMo-V2.5-Pro亲手超越DeepSeek全记录

May 10, 2026

建议收藏，2026 年 AI 圈最值得记住的名字。转发给每一个还在追 GPT 的朋友。

先说一个比小说还离谱的故事

2025 年 1 月，一位 95 后女生的成果让英伟达一周内蒸发 4 万亿市值。

她叫罗福莉，DeepSeek-V2 的核心开发者。那个她参与研发的模型，性能匹敌甚至超越 GPT-4，训练成本却不到对方的百分之一，直接让英伟达的股价跌出一个深坑。

随后她离开了 DeepSeek。

雷军开出千万年薪，把她请到了小米。

所有人都等着看她笑话——一家手机厂商，真能在 AI 赛道翻起浪花？

五个月后，答案来了：

MiMo-V2.5-Pro，1.02 万亿参数，开源模型全球第一，亲手超越了她曾参与缔造的 DeepSeek-V4-Pro。

这样的剧本，编剧都不敢写。

👩‍💻 罗福莉：从“没科研天赋”到AI天才少女

在了解模型参数之前，先读懂这个人，才能真正理解 MiMo 为什么如此炸裂。

逆袭人生

时间	事件
1995年	出生于四川宜宾，高中就读宜宾一中“清北班”
高考	考入北京师范大学计算机专业，大一陷入迷茫，期末成绩不理想
大二	曾被质疑“缺乏科研天赋”，一度动了转行的念头
大三	进入北大语言计算实验室实习，用3个月自学 Python，投出第一篇顶会论文
2019年	北大硕士期间，在 ACL 顶会发表 8 篇论文（2篇一作），硕士累计 20+ 篇
2020年	加入阿里达摩院（阿里星计划），主导开发多语言模型 VECO
2022年	转战幻方量化，后加入 DeepSeek
2024年	成为 DeepSeek-V2 核心开发者
2025年11月	雷军以千万年薪将她挖到小米，出任 MiMo 大模型团队负责人
2025年12月	发布并开源 MiMo-V2-Flash
2026年4月	MiMo-V2.5-Pro 登顶全球开源第一

她曾这样记录那段最艰难的时光：

“大年初五回到学校后，我几乎一直在赶稿，直到正月十五。躺在床上，听着窗外的烟花声，眼泪止不住地往下掉。”

从被质疑“没天赋”到国际顶会 20+ 篇论文，从迷茫的大一新生到年薪千万的 AI 掌舵者。

这样的故事，比任何模型参数都更有感染力。

🔥 MiMo-V2.5-Pro：手机公司做出来的全球第一

说回模型本身。4 月 28 日凌晨，小米正式开源 MiMo-V2.5 系列，两个版本：

维度	MiMo-V2.5	MiMo-V2.5-Pro
定位	全模态基座	旗舰 Agent
总参数	310B（3100亿）	1.02T（万亿级）
激活参数	15B	42B
上下文	1M	1M
多模态	✅ 文本+图像+视频+音频	❌ 纯文本
开源协议	MIT（可商用）	MIT（可商用）

关键数据：真的超越 DeepSeek V4 Pro 了吗？

小米官方公布的基准测试结果：

基准测试	MiMo-V2.5-Pro	对比
GDPVal-AA (Elo)	1581 分	超越 DeepSeek-V4-Pro、Kimi K2.6、GLM-5.1
ClawEval (pass³)	63.8%	超越 DeepSeek-V4-Pro
SWE-bench Pro	57.2 分	接近 Claude Opus 4.6（57.3分）
SWE-bench Verified	78.9%	低于 DeepSeek V4 Pro（80.6%）
t3-bench	72.9%	—
Token 效率	单轨迹约 7 万 Token 即达 64% 通过率	相比 Kimi K2.6 省 42%

Token 效率是一个显著亮点。 在 ClawEval Agent 任务中，MiMo 用约 7 万 Token 就取得了 64% 的通过率，官方数据显示相比 Kimi K2.6 节省了 42% 的 Token，整体 Token 效率提升 40%-60%。但需要说明，这一优势主要集中在 Agent 场景，在其他类型的任务中未必同样突出。

但客观来看，它并非全方位碾压。SWE-bench Verified 上 MiMo 的 78.9% 低于 DeepSeek V4 Pro 的 80.6%。36 氪的评测甚至直接指出：“综合实力难敌 DeepSeek”，长链推理能力仍有差距，定价也高于预期。

所以更精确的表达是：在 Agent 能力和 Token 效率上实现反超，但综合编码和推理层面还未全面领先。

🎬 不看广告看疗效：三个真实案例

数据之外，再看看 MiMo-V2.5-Pro 能做到什么。

案例 1：4.3 小时写出北大编译器并拿下满分

北大《编译原理》课程的经典大作业——用 Rust 实现一个 SysY 编译器，包括 lexer、parser 和 RISC-V 汇编后端。

用时：4.3 小时
工具调用：672 次
结果：隐藏测试集 233/233 满分
对比：计算机专业学生通常需要数周才能完成

案例 2：11.5 小时自主开发视频编辑器

用时：11.5 小时
工具调用：1,868 次
结果：一个功能完整的视频编辑器，全程自主完成

案例 3：从零开发一个“macOS”

结果：包含了开机动画、用户登录、窗口管理、54 个原生应用的完整桌面系统
对的，一个 AI 模型自己写出了一个操作系统界面

这三个案例传递的核心信息是：MiMo-V2.5-Pro 的 Agent 能力已经可以支撑持续数小时到十几小时的独立工作，不中断、不崩溃、不走偏。

⚔️ 最戏剧性的一幕：她超越了自己打下的江山

这个故事最精彩的地方，不在参数，而在人。

罗福莉在 DeepSeek 参与研发的 V2 模型，让 DeepSeek 一战成名。

然后她离开了。

去了小米。

今年 3 月，MiMo-V2-Pro 匿名上线 OpenRouter 平台。业内不少人在看到表现后惊呼：“这是 DeepSeek V4 要发布了吗？”

结果不是 DeepSeek，而是她新做的 MiMo。

自己的模型被误认为是老东家的新品——这大概是对一个 AI 工程师最高的认可。

现在，她带着 MiMo-V2.5-Pro 回来了，GDPVal-AA 跑分直接超过了 DeepSeek-V4-Pro。

亲手缔造了 DeepSeek 的传奇，又亲手超越了它。

好莱坞恐怕都不敢这么写剧本。

💰 白嫖机会：100 万亿 Token 免费送

光看故事不够，来看一些实在的福利。

小米同步推出了百万亿 Token 创造者激励计划：

项目	内容
总量	100 万亿 Token 权益
时间	2026年4月28日 - 5月28日
费用	免费
申请地址	100t.xiaomimimo.com

并且开源首日，MiMo 已经完成 7 家芯片的适配：

阿里平头哥、亚马逊 AWS、AMD、百度昆仑芯、燧原科技、沐曦、天数智芯。

推理框架也同步实现了 SGLang 和 vLLM 的 Day 0 适配。

MIT 协议 + 7 家芯片适配 + 主流框架即插即用 = 部署门槛降到了最低。

⚠️ 说几句大实话

不吹不黑，MiMo-V2.5-Pro 有几个需要注意的点：

1. “超越 DeepSeek”是带条件的——在 Agent 和 Token 效率上确实超越，但综合能力（尤其是长链推理）还有差距，36 氪的评测也确认了这一点。
1. 定价不算便宜——海外 API 输入每百万 Token 3 美元，输出每百万 Token 12 美元，比 DeepSeek 贵不少。不过考虑到 Token 效率更高，实际总成本可能反而更低。
1. 营销味道有点重——小米发布会的节奏很手机，“全球第一”的说法在社交媒体上争议不小。
1. 但“开源第一”是实打实的——MIT 协议、1M 上下文、首日 7 家芯片适配，这些靠的不是营销。

🎯 三句话总结

1. 罗福莉：从“没天赋”到千万年薪，从打造 DeepSeek 到超越 DeepSeek，2026 年 AI 圈最强逆袭。
1. MiMo-V2.5-Pro：Agent 能力开源全球第一，Token 效率碾压级表现，但综合能力仍在追赶。
1. 现在就能白嫖：100 万亿 Token 免费，MIT 开源，赶紧上车。

最后说一句：

2026 年做 AI，不是非得追着海外跑。国产开源已经可以打了——而且打得非常漂亮。

📚 延伸阅读

2026 大模型横评：DeepSeek V4 Pro vs MiMo V2.5 Pro vs Kimi K2.6 vs GLM-5.1
国产模型能替代 Claude 吗？斯坦福报告：差距仅剩 2.7%
MiMo-V2.5 官方博客
100万亿Token申请地址