Token纯度检测神器开源:TokenPlay大模型批量测试与对战平台
在我过去的模型评测中,经常用到一款叫做 CodingPlan Test 的自研工具,很多读者来问,表示很想上手一试。今天就把最新的软件和源码一块儿开放出来。

项目跑起来非常简单,完全零基础也能轻松玩转。

为什么要做这个平台
初衷很直接:需要一个可以批量检验不同 CodingPlan 真实水平的环境,同时观察它们的响应速度、Token 消耗等硬指标。而平台本身的迭代过程,也成为大模型能力测试的一部分,相关的文章我已经写了几十篇。
经过长时间实测,我越来越肯定一个结论:同样叫 Token,纯度之间的鸿沟远比想象中大得多。 优质的 Token 一口吸进去就再也不想换,劣质的吸一口就想吐。
短期内我可能不再发布评测向的内容,索性把工具完全交出来,方便大家自己动手对比。如果你在用中转站或其他代理服务,也可以拿它来检验一下 Token 的成色。
让我有点意外的是,不过短短几个月,纯粹的 CodingPlan 已经所剩无几,几乎全线变成 TokenPlan,不是贵得离谱,就是抢到崩溃。这就让原来的平台名字有些尴尬。所以我索性给它改了个更直白的名——TokenPlay。一个随便“玩”Token 的地方。
下面就从功能菜单出发,逐一说明有哪些玩法,每个功能都对应着不同的使用场景。
1. 平台配置
这个模块负责统一管理各类大模型供应商,也就是不同平台的接入信息。
目前内置了 6 个平台,只需要填入 Key,选好协议和模型,立刻就可以调用。
同时提供添加、编辑、测试、删除等基础操作。
编辑界面可以调整的信息包括:
- 平台名称
- 支持的协议
- 接入点地址
- 模型清单
- 密钥
除此之外,还允许指定思考模式以及默认的系统提示词。
添加模型时,我预先内置了大量常见选项,方便快速录入。目前国内主流模型基本都在预设列表里,海外也整合了 OpenRouter。模型配置完成后,后续所有功能都可以直接调用,还能随时启用或停用某个配置。
2. 批量测试
这个功能支持一键对多个模型进行批量测试,并将结果、速度和 Token 消耗并排展示。
当前可以自定义的参数包括:
- 核心提示词
- 系统提示词
- 最大输出 Token 数
- 具体参与测试的平台
测试结束后会全部自动存档,直接点击“历史记录”即可查看。
响应结果展示界面如下:
这里会显示所有参与模型的输出、思考过程以及详细的请求数据,内容完美支持 Markdown 格式渲染。
除了文本结果,还有性能数据:
性能指标包含 5 项:
- 首次响应延迟
- 总耗时
- 端到端速度
- 解码速度
- Token 消耗(功耗)
全部用图表呈现,一目了然。这就是 Token 照妖镜——随便抛出一个问题,谁强谁弱、谁快谁慢便一目了然。
3. 单独对话
这一功能用来和单个模型进行一对一深入对话与测试。
逻辑非常清晰:就是通过纯粹的对话体验模型的实际表现。
每次对话都会附带一些辅助判断数据:
- 思考时长(秒)
- 输出字符数
- 总消耗时间
- 上传 Token 量
- 下载 Token 量
当你觉得模型行为异常,或者不确定 API Key 是否正确的时候,也可以用单独对话快速定位问题。
4. 群聊功能
群聊可以把一堆平台或角色拉进同一个对话里。
这一部分是之前我反复测试时用的核心模块,内容也稍微丰富一些。
新建对话时可以选择对话模式,目前提供两种:
- 广播模式:你提出一个问题,所有模型都会针对同一个问题独立作答。
- 接力模式:你提出问题后,模型按顺序依次回答,每次回答都会参考此前所有的上下文。
参与者分为“平台”和“角色”两类:
- 平台:相当于裸接入第三方,比如智谱、小米 MiMo、DeepSeek 等。
- 角色:在平台和模型的基础上,套上一层特定的提示词,形成特定人格。
在最外层,还有一个作用于所有参与方(模型或角色)的“整体系统提示词”。这一项非常关键:如果不加限制,模型们在聊天中会长篇大论地疯狂输出。因此,最好选择一个专门设计的系统提示词,让它们做简洁回应。当然,系统提示词完全可以自由配置。
进入群聊后的界面大致如下:
运行过程中,右侧会列出本次准备回答的 5 个模型,按队列依次回复。一轮结束后,系统会自动生成新的队列继续对话。作为对话发起人,你可以随时暂停、继续或中断。
这个功能非常适合测试模型的长期上下文能力,或者组织某些场景下的头脑风暴。比如,问它们“如果抛开 AI 的身份,你最想做什么?”,后面的讨论就会特别有意思。再配合角色设定,可玩性就千变万化了。
比如把西游五人组拉进来,聊一聊白骨精的大长腿;把复仇者联盟叫来,吐槽灭霸的紫薯头;又或者你准备启动一个项目,直接把整组 AI 角色(程序员、设计师等)拉进来一起出谋划策。
5. 对战模式
这个模式的娱乐性和测试价值都很高,让 AI 和 AI 直接对抗。
可以选择的对战项目包括:
- 五子棋
- 中国象棋
- 斗地主(或者以后加入更多项目,比如搓麻将)

创建对战时,先选游戏类型和设定标题。然后根据具体的游戏来指定玩家,玩家同样可以是“平台”或“角色”。
目前作为初步测试,主要内置了五子棋和中国象棋。实测下来,除了 Opus 4.7 勉强有点棋感,其他模型整体偏弱,大概率是因为没有经过专门的棋类训练。这一点其实挺反直觉的——在我们的印象里,AI 下象棋、下围棋似乎应该很厉害,但实际上它们虽然能编写强大的下棋程序,可若要求实时推演局面,表现就相当一般了。
6. 系统设置
系统设置部分目前还比较精简,主要包括:
- 系统提示词管理
- 角色管理
- 密钥管理

系统提示词管理很直观,包含名称和具体提示词内容,支持编辑、删除和添加。
角色管理则会多几个设置项:角色名称、角色头像,以及具体绑定的平台和模型。
密钥管理虽然可能比较小众,但对我而言特别重要。因为手里的 API Key 数量很多,而大多数平台只在创建时可见一次,之后要想在不同设备、不同软件中测试,寻找密钥就很头疼。如果随手记在记事本或者云端同步的 App 里,泄露风险其实很高。比如:
- 有人扫盘抓取
- 云端平台数据泄露
这种情况发生的概率并不小。所以我干脆自己做了一层简单的加密保护:
- 存储时绝不保存明文
- 网页上默认隐藏
不过你可以一键点击复制,方便粘贴到其他地方使用。
功能大概就这么多,基本都是按照我自己的实际需求开发的。毕竟目前没有额外需求,所以也没有继续改动。如果大家觉得哪里可以进一步完善,非常欢迎提建议。只要我觉得不错,就会尽快更新。当然,代码已经开源,你完全可以直接动手修改。
未来方向
接下来就看大模型会往哪里发展,如果出现新的测试点或者更好玩的场景,随时都会加进来!有兴趣的朋友可以拿去玩,既然开源了,就希望能多收获一些 Star。冷冷清清的话,说明没人需要,我可能就把项目收起来自己玩了,不然挂着怪没面子的,哈哈。
项目地址:
https://github.com/JarvisPMS/tokenplay