2026上半年AI十大变革:从Agent Skills到Seedance 2.0,全面重塑人机协作格局
2026年的一天,一位用户通过手机向本地AI发出指令:打开一堆PDF发票整理成Excel报销单、一句话给电影《火遮眼》生成带宣传视频和海报的网站,以及按特定风格为这篇稿件撰写开头。饭做完,活也全部完成。这种事,一年前还只是科幻,今年已成日常。
这并非渲染,而是想指出:2026年上半年的AI,早已不是“哪个模型评分高”的叙事。模型端的竞逐,在GPT‑5.5、Claude 4.8、M3这一档已显露明显的边际递减。真正发生位移的地方,悄悄移到了别处——移到了如何将AI植入日常生活、融入工作流、嵌入个人电脑之中。
这半年一线测试过的产品不胜枚举,发布会看到一半就关掉的同样数不清。本文并非流水账,而是从众多事件中拣出10件亲手验证、踩过坑、形成判断的,串成一条主线。
10个话题的顺序是:Agent Skills、OpenClaw、Harness、Multi‑Agent(含Agent OS、Sub‑agent)、Coding Plan、CLI回归、Desktop Agent、Physical AI、语音交互、Seedance 2.0。
全文逾万字,细品。
一、Agent Skills:2026年最值得掌握的核心能力
整个上半年,最被低估却又最能影响一线工作流的事,就是Agent Skills。
它在半年内从一家厂商的功能,跃迁为行业标准。Anthropic于去年10月推出,12月做成开放标准,到现在OpenAI、谷歌以及国内AI厂商已全线跟进。
它究竟是什么?一言概之,Skills是一个文件夹,里面必须包含一份SKILL.md:开头是YAML元数据(name和description),下面是Markdown写成的执行说明,并可附带可选的scripts子目录、references子目录和assets资源文件。
skill-name/├── SKILL.md (必需)│ ├── YAML frontmatter (必需)│ │ ├── name: (必需)│ │ └── description: (必需)│ └── Markdown instructions (必需)└── Bundled Resources (可选) ├── scripts/ - 可执行代码 ├── references/ - 参考文档 └── assets/ - 资源文件
Agent Skills最精妙之处在于progressive disclosure,即渐进式披露机制,共分三层。第一层是元数据,每个Skill约50到100个token,会话启动时所有Skill的name与description都进入系统提示词,模型只是“知道有这些Skill存在”。第二层是指令,SKILL.md全文建议控制在5000 token、500行以内,仅当模型判定当前任务匹配某Skill时才加载进上下文。第三层是资源,scripts和references等更深层文件,只会在SKILL.md主动引用它们时才进入上下文。

这套架构解决了一个极为现实的问题——上下文的稀缺性。早期Agent的痛点是想往System Prompt里塞更多专业知识,塞得越多模型越糊涂。Skills把“有哪些能力”和“具体怎么干”在物理层面拆开,让模型只为正在做的事情付出token。
Skills真正解决的,并非prompt的长短,而是个人知识的资产化。组织里最值钱的从不是写在手册里的SOP,而是只有少数资深员工才知道的“这个表必须按这个口径填”。过去这种事要么口口相传,要么写成员工手册然后被束之高阁。Skills第一次让个人或团队的方法论具备了可分发、可复用、可版本化管理的形态。
实际体验下来,最直接的感受是效率神器。以常见的内容创作流程为例,可构建覆盖选题、风格、标题生成的Skills集合。每添加一个新Skill,模型在未触发时完全察觉不到,触发后却能精准照做。这种“加它不亏,用它管用”的体验,是传统提示词工程时代无法想象的。
时间来到2026年6月,再提“学会怎么问AI”已显过时。该学的是怎么教AI,而Skills是这件事最干净的载体。
二、OpenClaw:全民Agent的第一次破圈
2026年春节后,国内AI圈最热的名字是“龙虾”,学名OpenClaw,基于TypeScript的开源项目,作者Peter Steinberger。名字由来很简单:作者想做一个叫Molty的“太空龙虾”AI助理,后来将底层部分抽出来开源,便有了OpenClaw,“Open + 螯”。其GitHub Star数已达37万,登顶开源榜首。

它解决了一个被长期忽视的痛点。
过去做Agent,主流路径两极分化。比如ChatGPT的Operator、Manus、Genspark等,打开网页就用,体验流畅,但对话、文件、记忆全在第三方服务器上。另一类如Claude Code、Codex CLI,虽在本地运行,但本质上是写代码的终端工具,不管多通道、跨设备、永远在线这些事。
OpenClaw把这两条路接了起来。它本身不是模型,而是一个本地Gateway,提供全套通讯渠道,然后可挂接任意LLM。微信、Telegram、WhatsApp、Slack、Discord,连macOS/iOS的语音唤醒和Android的连续语音都做了,背后都是同一个跑在自己机器上的Agent,同一份记忆,同一份Skill库。
它真正引爆是在春节期间,几乎人人都在“养龙虾”。Kimi、GLM、MiniMax相继推出Coding Plan,能直接在OpenClaw里挂载国产模型。99元一个月就能跑一个永远在线的私人Agent,一年前想都不敢想。
但坦诚说,它也有“贵”的代价。OpenClaw就像一个心思极为细腻的管家,每一轮对话都拖家带口地把系统提示、长期记忆、技能元数据全塞进去。刚装上那阵子,充50元到云厂商,问到第三个问题余额就变负了。其token消耗大约是Claude Code的3到5倍。这不是bug,而是形态使然——一个永远在线、跨多通道的Agent,必须随时拎着完整上下文,否则人格、记忆、技能就接续不上。
如今龙虾热潮已大幅消退,仍留下来把玩的绝对是深度发烧友。它当然还有诸多问题:新手门槛偏高,安全性始终棘手,以及实在烧token。但它把“自动化Agent”从极客玩具拽到了大众能用的水平,这一步意义已经足够深远。
一个判断是,2026年下半年的核心战场不在通用ChatBot,而在于每个人都能拥有专属的Agent。OpenClaw是第一个真正跑通的开源样本。
三、Harness:为LLM套上缰绳
Harness Engineering在2026年上半年的讨论颇为火热,当然主要局限于AI公司内部,非从业者可能关注较少。
中文译名都有些别扭——挽具、马具、缰绳,总不够传神。它指的是包裹在LLM之外的一整层工程化基础设施,包括指令、约束、反馈、记忆、编排等。其核心作用,是把一个原本不可预测的模型,变成一个稳定、可控、可用的“数字员工”。
Harness为何在2026年成为共识?一个原因是大家发现,模型再强也扛不住上下文爆炸,真正决定成败的恰是外面那层“缰绳”。同一模型在Cursor里跑和在Claude Code里跑,体感差好几个段位,差别就在于Harness的工程质量。
此语境下跑出来的代表产品叫Hermes Agent。开源,可自由接入Claude、GPT、Kimi、GLM、MiniMax、Qwen和DeepSeek,3月起成为AI极客的新宠,热度超越OpenClaw。

它解决的问题,表面看与OpenClaw相似,内核却迥异。OpenClaw的核心叙事是“自动化Agent”,跨通道本地在线。Hermes Agent的核心叙事则是“自我进化的Agent”。今天教它一件事,下周它会自行评分,决定保留还是淘汰,质量欠佳的Skill会被自动合并或删除。
6月3日,Hermes Agent推出桌面版,macOS、Windows、Linux全面覆盖,前后端共享同一套配置、技能和记忆。你在CLI里发起的会话,能直接接到桌面端。
有判断认为,Harness在2026下半年会越来越重要。模型层的竞争已经开始边际递减,Harness这一层才刚刚拉开序幕。
四、Multi‑Agent:Agent开始组队协作
2026年上半年,Agent圈最显著的变化是单Agent开始过时了。
不是AI不够强,而是任务变复杂了。一次企业级代码迁移、一份跨平台市场调研、一场大型bug跨服务排查,单一上下文窗口塞不下,单一思路也跑不完。多Agent协作在这半年里从论文走向产品,名词随之分裂出Sub‑agent、Agent Team、Multi‑Agent、Agent OS等,听起来近,差别却很大。

先把这些词分清楚。
Sub‑agent:一次性、隔离、向上汇报。主Agent派出一个或一组子Agent执行任务,子Agent拥有独立上下文窗口,完成后只把结果汇总回来,期间互不通讯。这是最轻量的多智能体形态,本质是上下文隔离加并行加速。Claude Code文档将其描述为fire‑and‑forget worker。VS Code 1.109于2026年2月把Sub‑agent做成IDE一等公民,直接支持多个子Agent并发运行、可视化进度。
Agent Team:多个Sub‑Agent加一个Team Lead,长时间运行,共享任务列表,有mailbox相互通讯。区别在于队员之间能直接对话、争论,发现问题时可以彼此预警。代价是token成本飙升。
Dynamic Workflows:Anthropic于5月28日随Opus 4.8一同发布,中文名“动态工作流”。它不是让人手动派遣子Agent,而是让Claude自生成orchestration脚本,动态决定拉取几十甚至上百个子Agent,并行跑、独立验证、交叉收敛。官方演示场景为大型代码库迁移和企业级bug跨服务排查,原本数周的活儿被压缩到几天。
Agent OS:这是定义最野的一个词,没有官方标准。开发者社区摸索出的形态是:一个CEO Agent做规划,一个COO Agent做路由,配一个研究员做长程任务,再加一个人助理采集屏幕和麦克风做上下文。说白了就是用多个开源Agent拼出一个个人级AI操作系统。
Multi‑Agent:这是最大的伞概念,以上所有皆属其下。Cursor v3内置最多8个并发Agent,Google Antigravity 2.0上线Agent Teams,GitHub Copilot也跟进multi‑agent workspace,amux这类工具无关的orchestrator则用tmux + SQLite任务板 + git worktree把不同厂商的Agent编在一起跑。

为什么“多智能体架构”在2026上半年集中爆发?有三条线索。
第一,模型上下文窗口不再是瓶颈,工程能力反而成为瓶颈。1M token已成Claude、Gemini标配,但真塞满时模型注意力会切得稀碎。与其硬塞进一个上下文,不如分裂成多个隔离上下文,各司其职。这恰是Sub‑agent流行的根本原因。
第二,Agentic任务的真实形态就是分布式系统。Hermes Agent v0.13中那个Kanban多Agent看板,曾分析过其心跳、重认领、僵尸检测、retry机制,全是从分布式系统搬来的。Agent Team也好,Dynamic Workflows也罢,本质上都是把模型当worker,把orchestration当成一个分布式调度问题。这个范式一旦确立,多Agent协作便只是工程实现的事。
第三,企业用户真正入场。OpenAI 4月22日发布的Workspace Agents、6月4日上线的ChatGPT Workspace Agents,均瞄准团队协作,目标用户从开发者扩展到销售、市场、客服。这是从“session‑based chat”到“fleet‑based agent work”的范式迁移。组织需要的从来不是一个万能ChatGPT,而是一支各司其职、能持久跑的Agent编队。
实际体验最大的心得:Sub‑Agent确实好用,token翻倍但任务质量明显上一台阶,尤其在长程研究和编程场景。Agent Team则一言难尽,多Agent互相通讯听着很美,实际运行时经常出现“两个队员都觉得对方应先动”的死锁。动态工作流真正有效果,可成本确实高昂。
回头看会觉得很有意思,2024年说Agent是工具调用,2025年说Agent是工作流,2026年终于说到“Agent团队”这个层级。一个跑得顺畅的Agent团队,不再像工具,而更像一个真实的部门。
五、Coding Plan:AI市场化路上的经典事件
2026年上半年,对开发者影响最大的价格革命,是Coding Plan。
这事的来龙去脉得从一年前讲起。Cursor、Claude Code这类AI编程工具,2024年上线时几乎统一按token计费。一个稍微复杂点的编程任务,跑一次Opus动辄几十美元起步,像OpenClaw这种24小时在线的Agent一天烧掉几百元也不稀奇。曾有一次,刚装OpenClaw,充50元API进去,问到第三个问题余额就负了。这是真实体验,不是段子。
按token付费,费用高得离谱。每次回车前,脑子里都得盘算这个prompt大概要烧多少钱。开发者最讨厌的就是这种持续认知税,写代码本就够累,再叠一层成本焦虑,体验直劝退。
转折点来自GLM推出的GLM Coding Plan。
定价结构非常直接:20元一个月起,从Lite到Max 200元封顶。对比Anthropic自家的20美元Pro和100美元Max,定价差出一个数量级。给的不是次数限制,而是5小时滚动配额加7天周配额。20元这一档已基本能撑住一位全职程序员每天的AI编程量。
更关键的是兼容生态。改一行环境变量就能切过去,国产模型直接挂在Claude Code的壳子里运行。MiniMax、Kimi、阿里云百炼、火山方舟、阶跃星辰等紧随其后对标。大家一联手,整个行业的定价范式被改写了。
Coding Plan这个形态为什么能成?理解有三条。
第一条,模型边际成本降下来了。GLM‑5.1在主流编程基准上能做到Opus 4.6大约九成水平,国内推理成本本就低,再加上GLM自持云、自拥模型、自营售卖,一手货直接给开发者。MiniMax、Kimi同理。这种垂直整合让“低价吃饱”在商业上得以跑通。
第二条,开发者不需要“最强模型”,需要“够用且不贵”。日常写脚本、做网站、跑Skill时,GLM‑5.1在Claude Code壳子里几乎无感,与原生Sonnet体验相近。
第三条,订阅制本身降低了认知税。每月固定支出,按惯性运行,大脑不再对“这次该不该问”做经济计算。这件事的工程意义被严重低估。开发者愿意问得更多、试得更猛、错得更频繁,而这正是AI编程能力增长的最佳土壤。
2026年下半年,Coding Plan大概率还会继续下沉,月费20元这一档将逐步成为开发者标配。
Coding成本焦虑是过去两年最大的一堵墙,Coding Plan把这堵墙拆了。这事的功劳簿上,GLM值得记一笔。
六、CLI:AI时代的统一接口
2026年回头看,CLI在AI圈里地位的逆袭颇具戏剧性。
往前两年还在说“AI让普通人不用学命令行了”。Copilot写代码、Cursor拉聊天框、ChatGPT用网页对话,所有产品都在做更轻、更视觉、更小白的入口。
但到2025年下半年,风向急转。Anthropic推出Claude Code,OpenAI拿出Codex CLI,Google发布Gemini CLI,几个月内三大厂同步发布一个跑在终端里的Agent。去年看着反常识,今年回头看却是必然。
为什么会是CLI?
最直接的原因:Coding Agent的最佳工作面就是文件系统和命令行。你让Agent帮忙做迁移,它得能切目录、能git、能跑测试。这些动作在图形界面全是绕路,在终端里却是原生动作。CLI本身是历史上最稳定、最强大的“工具调用协议”,过去四十年来程序员积累的所有工具都能直接复用。
更深一层,CLI是被严肃对待的“人机协作界面”。GUI优化的是首次上手的好懂,CLI优化的是高频使用的快与稳。
除了Coding Agent青睐CLI,其他产品也在CLI化。比如飞书可以通过CLI串联各个Agent。甚至许多产品开发出两个版本:一版GUI给人类用,一版CLI给AI用。这是今年尤其有意思的一件事。

不过CLI并非完美。它对新手依然不友好,CLAUDE.md/AGENTS.md写什么、Plan Mode怎么用、Sub‑Agent派几个、Skills怎么挂,都需要学习成本。它对持续会话也挑战巨大,长程任务跑到一半窗口断了、tmux挂了,恢复体验跟GUI差着一个段位。这也正是Hermes Desktop这类“命令行内核+桌面壳子”形态出现的原因。
下一波产品演化,极可能出现在“命令行内核+多形态壳子”这一层。终端、桌面、Web全打通,记忆和技能跨表面共享。
七、Desktop Agent:AI真正走进你的电脑
2026年上半年最具体的一次范式变化,是Desktop Agent这个形态终于彻底跑通了。
说“具体”,是因为它真的具体。AI不再是浏览器里的聊天网页,而是一个本地运行的程序,能读磁盘上的文件,能调用电脑里的应用,能敲击桌面上的按键。这件事被预言了两三年,今年上半年多家AI公司都给出了自己的答案。

Codex(OpenAI):2026年2月2日macOS版上线,3月4日Windows跟上,6月4日已迭代到rust‑v0.138.0‑alpha.4。定位很明确,不是替代Codex CLI,而是给多Agent工作流一个GUI指挥中心。一个窗口内同时挂多个项目、多个线程、多个worktree,每个Agent在隔离的代码副本里运行,互不干扰。Skills与CLI、IDE完全互通,终端里写好的Skill在Codex中可直接使用。
Claude Cowork(Anthropic):目标不是开发者,而是知识工作者。指定一个文件夹,说一句“把收据整理成报销表”,它就去阅读、归类、输出Excel。有一个细节格外动人:Cowork主要是用Claude Code自己写出来的,前后开发周期约一周半。这本身就很戏剧——一个Coding Agent为自己写出一款面向非程序员的Desktop Agent。
同时国内,Qoder Work、Workbuddy、TRAE SOLO、MiniMax Agent、Skywork、Kimi Work等桌面端产品也如雨后春笋般涌出。
为什么是2026上半年?
第一个原因:模型层准备好了。Computer Use在2024年Anthropic首次放出时能跑通,但稳定性一塌糊涂。一年后,Claude 4.x系列、GPT-5系列在视觉理解、UI元素定位、连续操作上达到了“敢上线”的水平。Online‑Mind2Web这类浏览器自动化基准的成绩,也从“勉强”变成了“可用”。
第二个原因:Skills标准化了。Desktop Agent与Coding Agent最大区别在于要面对的工具种类何其庞杂。每一个应用都是一种隐性SOP,无法写在模型里。Skills给出了沉淀隐性知识的载体。Anthropic 12月18日将Agent Skills做成开放标准后,Desktop Agent的拼图便全部就位。
第三个原因:企业进场。OpenAI 4月22日的产品定位就是替代传统GPT的“组织级AI同事”。Claude Cowork也冲着这一点去,其Enterprise部署文档详列SSO、MDM、MSIX安装包,全是写给IT部门的语言。Desktop Agent不再只是个用的智能助理,已成为企业IT资产的一部分。
它解决了什么?
最直接的体感是消除了复制粘贴。过去用Chatbot做研究,最大的工作量不是提问,而是把网页内容复制到对话框,把AI输出复制到本地文档,把表格反复倒腾。Desktop Agent直接把这一层抹掉,文件就是它的输入输出,应用就是它的工具,整个工作流闭环。
第二重体感是任务能力被拉长放大。Web端chat是一来一回的会话,超过五分钟就下意识觉得它卡住了。Desktop Agent是常驻进程,可以挂上十几分钟、几十分钟跑长程任务,你该忙别的就忙,它跑完会自己回来通知。这种异步感,才是Agent真正的形态。
Desktop Agent最大的意义在于,AI第一次真正入驻了你的电脑。它不在云端,不在浏览器,不在聊天窗口,就在本地这台机器的进程列表里,是出现在macOS活动监视器或Windows任务管理器中的一个名字。也许就是这个名字,成为AI真正成为“AI同事”的那道门槛。
八、Physical AI:AI终于开始有身体了
如果前面七个话题都还在讲AI在数字世界的演化,那Physical AI就是2026上半年最大的“破壁”事件。
AI终于有身体了,而且不是demo视频里的那种,是真正在工厂里上下班、在大学里做研究、在汽车产线上拧螺丝的那种。

先看硬件。截至2026年中,全球约有7000到8000台商用人形机器人在运行。中国这边,AGIBOT于3月底交付至第1万台,宇树6月通过科创板上市委审核,估值约62亿美元。海外,Tesla Optimus量产,目标2万到3万美元一台;Figure 03已在宝马工厂上线;Atlas卖给现代汽车。
仅看数字便能感知拐点。一年前所有人形机器人加起来还在几百台量级,今年集体跨过千台、万台。
然而硬件不是核心叙事,软件才是。Physical AI一词的真正含义,是软件第一次能驱动一台机器在真实物理世界里进行“理解+行动”。
NVIDIA是这一波最关键的推手。其发布的Cosmos 3是一个“世界基础模型”,把“看懂世界+预测未来+生成动作”打包到一个模型里。配套的GR00T是人形机器人专用栈,同一份模型权重能在不同品牌的人形机器人上做适配。
这件事的意义在于,过去每家机器人公司都得从零训练模型,现在有了共享底座。NVIDIA出大脑,机器人出身体,学术界出场景。这种合作姿态非常明确。

Physical AI解决了什么?
判断是,它解决了“AI进入实体经济”的最后一道接口。知识工作这一头AI已卷得很深,但全球GDP中超过一半其实是搬运、装配、巡检、护理这类手活儿。过去AI与这半壁经济基本绝缘,现在Physical AI把这道墙拆开了。
但它尚未真正成为可用的C端产品。目前距离C端最近的是1X Neo,宣布售价2万美元,目标2026年底交付。其他几家全是B端服务,Figure 03在宝马工厂、Optimus在Tesla自家工厂、Atlas为现代汽车服务。
真实的瓶颈不是钱,是可靠性。一台能稳定跑满8小时不死机的家用人形机器人,对软件和硬件的考验比工业场景大一个数量级。家庭地形复杂,孩子宠物乱跑,光线多变,任务边界模糊。Cosmos 3这类世界模型在工业场景已经能用,在家庭场景仍差一截。
对Physical AI,短期不必过分乐观,但长期方向无疑是对的。2026年是从几百台到几万台的跨越,2027年要看能否从工业场景迈向商业服务场景,比如餐厅、仓储、酒店。真正的C端拐点可能要等到2028年之后。
但即便节奏比硅谷宣传的慢,方向是正确的。AI不再只是屏幕里的一段对话,开始成为站在你面前会回头看你一眼的一个存在。这件事比所有chatbot加起来,都更接近“AI改变世界”这句话本来的含义。
九、语音交互:成为所有AI产品的标配
2026年上半年最容易被忽略的一项变化,是几乎所有的AI产品都悄然装上了语音入口。
它或许不像其他话题那样高大上,却真真切切改变了普通用户与AI打交道的方式。一个最直观的判断:回想去年此时怎么用豆包,再想想现在怎么用,会发现“打字”的比例在快速下降,“口喷交流”的比例在快速上升。

它解决了什么?
第一,输入摩擦被大幅降低。最直接的感受是,布置一个稍复杂的任务,过去需要敲键盘三五分钟,现在口头几十秒就能说完需求。语速比键盘快三到四倍。
第二,多任务并行的成本被砍掉。过去用AI必须坐到电脑前停下手里的活儿,现在洗碗时可以让OpenClaw查机票、做饭时让ChatGPT想晚餐菜单、走路时让Claude过一遍当天的稿子。AI第一次能与“做其他事”叠加在一起。
第三,无障碍的边界被扩开了。眼睛离不开屏幕的人、键盘不顺手的老人、有阅读障碍的孩子,这些群体过去基本被AI的文字界面挡在门外。语音入口铺开后,AI真正面向了所有人。
有判断认为,2026下半年语音不会再是任何一家厂商的差异化卖点,它会沉入地基,与记忆系统、Skills支持一样,成为AI产品的标配能力,没装就是产品没做完。
十、Seedance 2.0:中国模型第一次站在世界中央
最后,用一个中国模型来收尾。
2月,字节发布Seedance 2.0。3月,Seedance 2.0进入CapCut,率先在巴西、印尼、马来西亚、墨西哥、菲律宾、泰国、越南等海外市场上线。5月,DeepLearning用了“字节把Seedance 2.0装进CapCut,OpenAI撤了”这样一个耐人寻味的标题。当时Sora正在收缩消费级业务,字节这边正将视频生成铺成CapCut数亿用户的默认能力。这是一次很具象的对比。

Seedance 2.0究竟是什么?
它的本质是一个统一的多模态生成框架。输入支持文字、图片、声音、视频,可一次塞最多9张图、3段视频、3段音频做参考。输出为带原生音轨的视频,可同步生成对白、环境音、音乐。视频时长5到15秒,分辨率720p。
Seedance 2.0解决了什么?
最直接的,它把AI视频从“试一下出几条分镜”推到了“能进生产管线”。15秒720p配音乐配口型一次出,对于短视频创作者、电商商品视频、社媒广告、教育课件这些日常场景,堪称大杀器。
更深一层,它改变了视频内容的供给结构。过去拍一条60秒的产品视频,需要演员、场地、剪辑、配音四项成本,现在Seedance 2.0加CapCut一个人对着电脑两小时搞定。这对中小品牌、自媒体、跨境电商是真正的解放。
但Seedance 2.0并非没有短板。分辨率天花板仍在720p至1080p区间,与Veo 3.1的4K相比差着一档。连续叙事仍靠拼接,转场处偶尔露馅。物理真实度仍有差距,流体、布料等场景,Seedance 2.0的“看着像”和Sora 2的“算出来的真实”是两个概念。此外,肖像权和版权风险也不小。
两年前还说“中国AI视频是慢一拍的追赶者”,今年这句话已经说不出口。Seedance 2.0、Kling 3.0、可灵、即梦这一拨,一起把AI视频革命的舞台搬到了东半球。这一轮AI视频革命,最热闹的地方,已经不在硅谷。
写在最后
10个话题写完,回头看其实只有一条主线。
2026年上半年的AI,不再是“模型多大、跑分多高、demo多炸”的故事。它是把模型层卷出来的能力,往下沉、往外扩、往身边带的故事。
Skills把方法论沉淀为资产,OpenClaw和Hermes Agent让Agent框架成为开源基础,Harness把Agent工程提升到被严肃讨论的层级,Multi‑Agent把单兵AI升级为团队AI,Coding Plan拆掉成本焦虑,CLI给了AI统一接口,Desktop Agent把AI装入本地,Physical AI给AI装上身体,语音交互给AI装上耳朵和嘴,Seedance 2.0让中国模型在视频赛道第一次坐上主桌。
每一件事单看都是技术演化,串联起来看则是AI第一次大规模开始成为日常。这种“成为”不是某一场发布会能完成的,是无数个小齿轮咬合到位后的自然结果。
若要对2026下半年下一个判断,那就是“AI的iPhone时刻并未过去,但应用商店时刻才刚刚开始”。AI将越来越像水电煤,融在每一件事里,融到让人意识不到。