Token纯度检测神器开源：TokenPlay大模型批量测试与对战平台

June 12, 2026

在我过去的模型评测中，经常用到一款叫做 CodingPlan Test 的自研工具，很多读者来问，表示很想上手一试。今天就把最新的软件和源码一块儿开放出来。

项目跑起来非常简单，完全零基础也能轻松玩转。

为什么要做这个平台

初衷很直接：需要一个可以批量检验不同 CodingPlan 真实水平的环境，同时观察它们的响应速度、Token 消耗等硬指标。而平台本身的迭代过程，也成为大模型能力测试的一部分，相关的文章我已经写了几十篇。

经过长时间实测，我越来越肯定一个结论：同样叫 Token，纯度之间的鸿沟远比想象中大得多。 优质的 Token 一口吸进去就再也不想换，劣质的吸一口就想吐。

短期内我可能不再发布评测向的内容，索性把工具完全交出来，方便大家自己动手对比。如果你在用中转站或其他代理服务，也可以拿它来检验一下 Token 的成色。

让我有点意外的是，不过短短几个月，纯粹的 CodingPlan 已经所剩无几，几乎全线变成 TokenPlan，不是贵得离谱，就是抢到崩溃。这就让原来的平台名字有些尴尬。所以我索性给它改了个更直白的名——TokenPlay。一个随便“玩”Token 的地方。

下面就从功能菜单出发，逐一说明有哪些玩法，每个功能都对应着不同的使用场景。

1. 平台配置

这个模块负责统一管理各类大模型供应商，也就是不同平台的接入信息。

目前内置了 6 个平台，只需要填入 Key，选好协议和模型，立刻就可以调用。

同时提供添加、编辑、测试、删除等基础操作。

编辑界面可以调整的信息包括：

平台名称
支持的协议
接入点地址
模型清单
密钥

除此之外，还允许指定思考模式以及默认的系统提示词。

添加模型时，我预先内置了大量常见选项，方便快速录入。目前国内主流模型基本都在预设列表里，海外也整合了 OpenRouter。模型配置完成后，后续所有功能都可以直接调用，还能随时启用或停用某个配置。

2. 批量测试

这个功能支持一键对多个模型进行批量测试，并将结果、速度和 Token 消耗并排展示。

当前可以自定义的参数包括：

核心提示词
系统提示词
最大输出 Token 数
具体参与测试的平台

测试结束后会全部自动存档，直接点击“历史记录”即可查看。

响应结果展示界面如下：

这里会显示所有参与模型的输出、思考过程以及详细的请求数据，内容完美支持 Markdown 格式渲染。

除了文本结果，还有性能数据：

性能指标包含 5 项：

首次响应延迟
总耗时
端到端速度
解码速度
Token 消耗（功耗）

全部用图表呈现，一目了然。这就是 Token 照妖镜——随便抛出一个问题，谁强谁弱、谁快谁慢便一目了然。

3. 单独对话

这一功能用来和单个模型进行一对一深入对话与测试。

逻辑非常清晰：就是通过纯粹的对话体验模型的实际表现。

每次对话都会附带一些辅助判断数据：

思考时长（秒）
输出字符数
总消耗时间
上传 Token 量
下载 Token 量

当你觉得模型行为异常，或者不确定 API Key 是否正确的时候，也可以用单独对话快速定位问题。

4. 群聊功能

群聊可以把一堆平台或角色拉进同一个对话里。

这一部分是之前我反复测试时用的核心模块，内容也稍微丰富一些。

新建对话时可以选择对话模式，目前提供两种：

广播模式：你提出一个问题，所有模型都会针对同一个问题独立作答。
接力模式：你提出问题后，模型按顺序依次回答，每次回答都会参考此前所有的上下文。

参与者分为“平台”和“角色”两类：

平台：相当于裸接入第三方，比如智谱、小米 MiMo、DeepSeek 等。
角色：在平台和模型的基础上，套上一层特定的提示词，形成特定人格。

在最外层，还有一个作用于所有参与方（模型或角色）的“整体系统提示词”。这一项非常关键：如果不加限制，模型们在聊天中会长篇大论地疯狂输出。因此，最好选择一个专门设计的系统提示词，让它们做简洁回应。当然，系统提示词完全可以自由配置。

进入群聊后的界面大致如下：

运行过程中，右侧会列出本次准备回答的 5 个模型，按队列依次回复。一轮结束后，系统会自动生成新的队列继续对话。作为对话发起人，你可以随时暂停、继续或中断。

这个功能非常适合测试模型的长期上下文能力，或者组织某些场景下的头脑风暴。比如，问它们“如果抛开 AI 的身份，你最想做什么？”，后面的讨论就会特别有意思。再配合角色设定，可玩性就千变万化了。

比如把西游五人组拉进来，聊一聊白骨精的大长腿；把复仇者联盟叫来，吐槽灭霸的紫薯头；又或者你准备启动一个项目，直接把整组 AI 角色（程序员、设计师等）拉进来一起出谋划策。

5. 对战模式

这个模式的娱乐性和测试价值都很高，让 AI 和 AI 直接对抗。

可以选择的对战项目包括：

五子棋
中国象棋
斗地主（或者以后加入更多项目，比如搓麻将）

创建对战时，先选游戏类型和设定标题。然后根据具体的游戏来指定玩家，玩家同样可以是“平台”或“角色”。

目前作为初步测试，主要内置了五子棋和中国象棋。实测下来，除了 Opus 4.7 勉强有点棋感，其他模型整体偏弱，大概率是因为没有经过专门的棋类训练。这一点其实挺反直觉的——在我们的印象里，AI 下象棋、下围棋似乎应该很厉害，但实际上它们虽然能编写强大的下棋程序，可若要求实时推演局面，表现就相当一般了。

6. 系统设置

系统设置部分目前还比较精简，主要包括：

系统提示词管理
角色管理
密钥管理

系统提示词管理很直观，包含名称和具体提示词内容，支持编辑、删除和添加。

角色管理则会多几个设置项：角色名称、角色头像，以及具体绑定的平台和模型。

密钥管理虽然可能比较小众，但对我而言特别重要。因为手里的 API Key 数量很多，而大多数平台只在创建时可见一次，之后要想在不同设备、不同软件中测试，寻找密钥就很头疼。如果随手记在记事本或者云端同步的 App 里，泄露风险其实很高。比如：

有人扫盘抓取
云端平台数据泄露

这种情况发生的概率并不小。所以我干脆自己做了一层简单的加密保护：

存储时绝不保存明文
网页上默认隐藏

不过你可以一键点击复制，方便粘贴到其他地方使用。

功能大概就这么多，基本都是按照我自己的实际需求开发的。毕竟目前没有额外需求，所以也没有继续改动。如果大家觉得哪里可以进一步完善，非常欢迎提建议。只要我觉得不错，就会尽快更新。当然，代码已经开源，你完全可以直接动手修改。

未来方向

接下来就看大模型会往哪里发展，如果出现新的测试点或者更好玩的场景，随时都会加进来！有兴趣的朋友可以拿去玩，既然开源了，就希望能多收获一些 Star。冷冷清清的话，说明没人需要，我可能就把项目收起来自己玩了，不然挂着怪没面子的，哈哈。

项目地址：
https://github.com/JarvisPMS/tokenplay