国产大模型更懂职场：用AI修改Word方案的实测对比

May 31, 2026

今天本来打算写一篇“如何直接用AI工具修改方案文档”的操作指南，但在整理素材的过程中，却意外形成了一个更让我想表达的观点——国产模型，确实更懂国人。

下面我就把得出这个看法的过程记录下来，同时也会分享一些用AI操作Word的踩坑经历。

作为一名普通上班族，我日常工作的一部分就是不断调整、润色各种方案，几乎每一天都要跟Word打交道。自然，当AI助手兴起后，我第一时间就想着让它替我分担这部分工作。刚好手上有个任务，于是干脆边干活边把过程整理成文。

我原先以为，让AI帮忙改Word会非常简单：把文档内容直接粘贴到对话框里，告诉它要改动哪些部分，然后它就能一键搞定。但真正上手才发现，现实远远不是我想的那样。

先拿Codex结合GPT-5.5来试。我按照上面的想法直接贴入Word内容，结果运行了半个多小时，连第一张表格的渲染都没过完，反复卡在那里。渐渐地我失去了耐心，索性让它先跳过表格，心想我自己手动调整总可以吧。然而它又困在Word标题和字体的渲染上，又是半小时过去了。

最终它吐出一大串脚本和代码，打开之后我大吃一惊——满篇都是一级标题的Word文档，吓了我一跳。

5小时的使用额度眼看就要耗尽，也快到下班时间了。

情急之下，我只好让它先输出Markdown文档，然后自己手动复制粘贴到Word里。总算勉强完成了任务。

用AI直接修改Word，本质上就是打通了办公流程的“最后一公里”。我用元宝、豆包这类国产工具，按提示词生成合适的文本完全没问题，但如果一个AI工具不能把内容直接、准确地写进Word，那这些文本能力在实际工作中就失去了大半意义。

于是我又拿Workbuddy加上GLM 5.1的组合尝试了一遍，因为之前总觉得Codex在调用skill时存在问题，也可能是自己刚接触，对它还不够信任。

我给Workbuddy的提示词是这样的：

“把md里面这个里面的内容写入到test.doc 这个word的4.数据资源治理。替换这部分内容。要求标题字体都要和原文档的标题和字体都内容保持一致。数据资源治理对应word里面4.数据资源治理这一层级的标题。明白我的意思了吗？明白就开始工作吧”

执行过程中它也在写代码，也提示我这个Word文件版本较老，但整个流程看起来相当靠谱。

大约10分钟后，结果就呈现出来了。

说实话，我非常满意。除了三级标题没有沿用原来的序号样式，其他所有内容都准确无误地复刻到了文档里。反观Codex的表现，还不及Workbuddy。

首先是耗时，Workbuddy完成同一个任务前后只用了大约十分钟，而Codex执行一次就要半小时。其次是过程体验，Codex几乎每一步都会附带大段原因分析和后续计划，一旦执行不理想就开始“碎碎念”，说自己失败是因为哪些限制，接下来打算怎么做……就像职场上那种老实又积极但能力有限的同事，把事办砸后不停地解释。我这种急性子看着实在来气。

Workbuddy则完全不同，执行过程直接展示逻辑，不废话，或者说只给正向反馈，几乎不传递负面情绪，用起来让人心里舒服很多。这一点也正好印证了我说的——国产模型还是懂国人。

除了“耗时长、负反馈多”，Codex最大的问题还在于贵，使用几次就超出限额，而且额度有限。如果它能跟Workbuddy一样平价，那我一句怨言都不会有。但它的月费是国产产品的3倍，效果却一般，这等于在浪费我的预算，那它还有存在的必要吗？如果我是老板，或许会想：“不如把Codex裁掉，换两个Workbuddy给我干活算了。”

当然，有人可能会说用Codex来写文档是“大材小用”，它本身就不是为这种任务设计的，它的强项是搞定更复杂的程序与逻辑。这点我不否认，确实不该用简单的工作去刁难一位“海归高材生”，之后我也会给它安排更艰巨的任务，希望它到时候别再让我失望。

之前看过一个观点：顶尖的大模型为什么连“我应该开车去洗车还是走路去”这类问题都回答不好，那是因为它们并不在意这些低价值问题，这些不能给它们带来更高的经济回报。同理，一些写作、编辑Word文档的能力，也可能在某些模型的发展方向上逐渐被弱化，它们正全力向编程等更高阶领域高歌猛进。

理解了这条技术路线，我们就没必要总盯着所谓“最强的模型”不放，国产模型同样能满足日常需求。很多基础工作，比如处理Word文档这类任务，国产工具不仅能干，而且干得更好。

归根结底还是我标题那个观点：国产模型在训练和优化过程中，更贴近国人的使用习惯，因此才更懂我们的需求。以后在工作中，我们也要多给国产模型一些机会，让同一个团队里的每个“员工”都能发挥自己的特长，这才是我这个当“领导”的应该做的事。