BrowserAct：替代Playwright的免费开源利器，赋予AI Agent反检测与多任务自动化能力

June 20, 2026

在使用浏览器自动化时，许多人会选择Playwright或Google开源的Chrome DevTools。但对于真实互联网环境中的复杂场景，这类基础框架往往显得力不从心。

例如，扫码登录时，AI需要等待人工介入；多账号需要独立的Session与Cookie管理；层出不穷的机器人验证弹窗也让人头疼。Playwright并非为应对这些真实世界的挑战而设计，它缺少一层专门处理反检测、验证码、会话管理及人机协作的基础设施。

好在，GitHub上最近出现了一个名为BrowserAct的开源项目，正好弥补了这一空缺，使用体验令人惊喜。

项目概览

BrowserAct是一个面向AI Agent的浏览器自动化CLI工具。它让Agent能够控制真实的浏览器实例，轻松进入动态页面、登录态页面以及访问受保护的网站。当自动化流程卡壳时，可以无缝切换为人机协作；多个任务可以并发运行而互不干扰；多账号则能够在独立的浏览器环境中彻底隔离。

其核心亮点是Stealth浏览器（反检测）和动态代理功能：

Stealth浏览器：内置指纹伪装的反检测浏览器，能够绕过大多数网站的反爬虫机制，适合采集有防爬保护的网站数据。
动态代理：可按地区自动轮换IP，每个请求使用不同的出口地址，非常适合大规模数据采集或突破地域限制。

开源地址：github.com/browser-act/skills

该项目包含两个核心产品Skill：

browser-act CLI：用于实时浏览器控制，适合一次性任务和即时操作。

browser-act-skill-forge：将网站的操作能力封装为可复用的Skill，适用于批量、定期、大规模的任务。

安装这两个Skill后，只需配置API Key，即可启用Stealth浏览器和动态代理功能。

获取限制访问网站的数据

例如，只需发送指令：“使用Stealth浏览器，获取卡帕西最新发布的3篇推文及其热门评论，整理成Word文档”。对于这类反爬严格的网站，browser-act可以轻松应对。

这就是Stealth浏览器的威力——它能绕过网站的反爬机制，从而采集原本被保护的内容。

什么是Stealth浏览器？ 普通浏览器在访问网站时，会暴露数十种信号，这些信号组合成独特的浏览器指纹，成为网站判断用户身份的依据。而Stealth浏览器则是在每个检测维度上都进行了精细伪装，让指纹看起来就像一个真实的人类用户，从而绕过检测。

将操作经验沉淀为Skill

我经常需要将文章中的视频上传至后台，手动操作非常繁琐。虽然之前尝试过多种浏览器自动化Skill，但效果均不理想。而browser-act-skill-forge的表现堪称卓越，我称之为“网站能力锻造器”。

它能够自动探索网站的API端点和请求模式，然后生成完整的SKILL.md文件及Python脚本包。探索一次，后续即可大规模复用，极适合批量抓取。

举个例子，我利用browser-act-skill-forge这个Skill，让它将刚下载的视频上传到微信公众号后台的素材库。在初次探索时，它会尝试勾选必要的选项，但偶尔会误点《公众平台视频上传服务规则》链接。

不过，一旦学会了正确的路径，后续操作就会避开这类陷阱。

这正是该Skill的实用之处——每个网站都有独特的交互方式，AI不可能一次就完美执行所有浏览器任务。但通过将探索时踩过的坑沉淀下来，下一次便能走最优路径，避免重复错误。

browser-act-skill-forge能够将你在浏览器自动化中积累的经验固化下来，让后续执行更高效、成本更低。

另一个实用功能是自动剥离90%的无效HTML。它会剔除广告、追踪代码和框架噪声，只将真正有意义的内容传递给LLM，既节省推理成本，又让Agent获得更干净的信息。

核心能力详解

① 三种浏览器模式

Stealth（隐身模式）：每次创建全新的反检测浏览器实例，搭配独立指纹和代理。适合突破反爬保护以及多账号并行采集，需API Key。
Chrome（复用登录态模式）：启动独立Chrome实例，可加载已有Cookie、登录状态等，适合操作已登录的后台或社交媒体，免去重复认证，但不具备stealth级的反检测能力。
Chrome-Direct（零配置直连模式）：通过CDP协议直接连接当前正在运行的Chrome，不创建新实例，适合快速调试和人机协同——用户在浏览器中操作到一半可让Agent接管继续执行。

简单来说，要突破反爬选stealth，要复用登录态选chrome，要操作当前浏览器则选chrome-direct。

② 突破反爬的机制

Stealth浏览器模式构建了一套完整的反检测体系：在环境层，通过定制Chromium移除所有自动化痕迹，每次生成唯一的浏览器指纹，配合动态代理轮换和会话隔离，让网站从一开始就不会将你判定为机器人，从根源上避免触发验证码。执行层则内置了solve-captcha命令，可自动解决Cloudflare、reCAPTCHA、Datadome等验证码（仅上传验证码图片，不传输Cookie），并通过stealth-extract一条命令提取受保护页面的JS渲染后内容。人机交互层提供了remote-assist功能，生成远程链接，让用户通过手机完成扫码或短信验证等必须人工参与的步骤，操作完成后Agent可在原会话中继续执行。

③ 多任务处理

同一账号下可以并发运行多个任务，例如同时检查消息、整理订单、生成日报、查看评论等，每个任务都工作在独立的Session工作区，互不干扰。

例如，可以发送这样的指令：

用 browser-act 同时并行完成以下任务：
① 查看开源项目最近的 issues 和 pr：https://github.com/Wechat-ggGitHub/Awesome-GitHub-Repo
② 搜索小红书博主最近的帖子更新：https://www.xiaohongshu.com/user/profile/548251dce779893bcf3f77bc
③ 查看最近热门开源项目：https://github.com/trending
④ 获取某YouTube频道最近10期的内容：https://www.youtube.com/@lexfridman

多账号场景则更加彻底——每个账号拥有独立的浏览器环境，从Cookie、Session到代理和指纹完全隔离。

如果你想尝试这两个Skill，可以将以下指令发送给你的Agent：

请你读取这个链接，帮我安装里面的 Skill，并测试一下能否正常运行：https://github.com/browser-act/skills

开箱即用的Skill生态

BrowserAct已经准备了一套可直接部署的Skill，覆盖5个主要场景，共31个：

电商（8个）：Amazon ASIN查询、热销产品查找、Buy Box监控、竞品分析、Listing竞品对比、产品详情、产品搜索、评论抓取
线索获取（7个）：商家联系方式与社交链接、GitHub项目贡献者查找、Google Maps商家搜索、Google Maps商家评论、通用接口、行业关键人雷达、社交媒体发现
搜索研究（4个）：Google图片搜索、Google News、网页研究助手、网页搜索抓取
社交监听（3个）：Reddit竞品分析、微信公众号搜索、知乎搜索
视频平台（9个）：YouTube搜索、频道分析、评论提取、字幕提取、字幕批量提取、字幕分析、KOL发现、视频详情、YouTube API

所有这些Skill都经过了实战验证，安装即可投入使用。