OmniGet开源下载神器:免费免登录无广告,一键保存全网视频音频文档
你是否曾为无法永久保存喜爱的短视频而遗憾?是否希望离线学习在线课程,彻底摆脱网络依赖?是否想高效收集优质文档和媒体资源,却苦于工具繁杂?这些看似分散的需求,在OmniGet的帮助下都能一站式解决。
OmniGet是一款免费开源的桌面下载工具,以“全能兼容、轻量高效、纯净无广告”为核心理念,将多种资源获取能力聚合在一个简洁的界面里。它在GitHub上已收获超过2000颗星,受到众多开发者的认可。
与传统下载工具相比,OmniGet体积小巧、启动飞快,兼容arm等多种架构,电脑与平板都能轻松适配。代码完全公开,没有任何弹窗广告或捆绑软件,依靠社区力量持续迭代,即使低配机器也能流畅运行,同时支持Windows、macOS、Linux三大系统。

它原生支持50多个主流平台,并通过整合yt-dlp工具,将可解析的网站扩展到1000多个。无论是短视频、长视频、图片、音频还是文档,只需复制链接并粘贴到OmniGet中,软件就会自动识别可留存的资源,真正做到一键下载。

功能细节不再赘述,下面直接看安装步骤。首先前往GitHub获取安装包,项目地址如下:
https://github.com/tonhowtf/omniget
下载页面提供了多个系统版本,请根据你的操作系统选择对应文件。

下载完成后运行安装程序,按照向导设置语言、界面主题以及下载保存路径等偏好。

安装过程中会提示必须安装yt-dlp和FFmpeg两个组件。你可以尝试点击“全部安装”自动部署,若自动安装失败则需要手动配置。

先看yt-dlp的手动安装。从GitHub下载其程序,链接在此:
https://github.com/yt-dlp/yt-dlp
把下载好的文件放到你打算安装的目录,然后在文件夹空白处右键选择“在终端打开”。

在打开的终端窗口中输入 winget install yt-dlp 并回车(可直接复制命令),系统会自动下载并安装,耐心等待进度条走完。


当界面停止滚动且不再显示蓝色的下载进度条时,表示安装完毕,可以关闭终端窗口。

FFmpeg的安装流程类似,下载安装包地址为:
网上也有详细教程,遇到困难可以自行搜索。yt-dlp和FFmpeg既可以提前装好,也可以在OmniGet安装过程中跳过,稍后补装。注意首次运行OmniGet时可以选择需要启用的功能模块,建议全部勾选;如果跳过了,之后也能随时在插件市场安装。

进入主界面后,你可以在输入框中粘贴链接或直接搜索资源。

点击左侧的“插件市场”可以随时安装或卸载所需要的插件,灵活扩展功能。

在设置页中,你可以自由切换主题颜色、修改下载保存路径、选择视频质量,还可以启用字幕下载。软件还支持按平台整理文件,自动生成独立文件夹,让资源管理井井有条。

在“设置→工具”中,可以检查yt-dlp和FFmpeg是否成功安装。成功则会显示版本号,右侧按钮为“更新”;未安装则显示“安装”。其余参数保持默认即可。

OmniGet还能借助FFmpeg实现视频格式转换,转换速度依赖本地显卡性能,显卡越好速度越快。

软件还内置了一些课程下载平台的支持,不过这些平台通常需要配置代理并登录才能正常下载,否则会显示连接失败,有需要的话可以自行设置。

总的来说,OmniGet作为一款下载工具,功能强大人性化,完全没有广告弹窗,也无需登录或付费,相比许多同类付费产品,体验堪称“碾压级”存在。
OpenCode MCP深度实战:十款必备服务器打通全栈开发工具链
🔥 GitHub、数据库、Slack、浏览器……想象一下,一个 AI 工具就能把这些全部串起来。
从 10 个必装 MCP 服务器到按代理角色精细化权限控制,再到自定义开发入门——本文带你把 OpenCode 从“能写代码”升级成“能操控一切”。
📌 MCP 核心理念与架构解析
一句话说明
MCP(Model Context Protocol) 是一套开放协议,让 AI 编程代理可以对接外部工具和数据源。如果把 OpenCode 比作大脑,那么 MCP 就是它的手和眼睛——不仅能读写代码,还让它有能力查数据库、管 Issue、搜文档、操作云服务。
OpenCode 能力体系
内置工具层14 个基础工具
MCP 扩展层无限外部工具
文件读写 / Bash / 搜索
Sentry 错误追踪
Context7 文档查询
数据库操作
GitHub / Jira 集成
Slack 通知
自定义 API
MCP 在架构中的位置
回顾 OpenCode 的三层架构:
你的指令 → 代理层(怎么思考) → 工具层(能做什么) → 代码库
↑
MCP 扩展层(能连什么)
- 内置工具:文件读写、Bash 执行、代码搜索等 14 个工具,开箱即用
- MCP 工具:连接外部世界的桥梁,按需安装,扩展性几乎没有上限
一旦添加 MCP,其工具会自动与内置工具一起提供给 LLM 调用,无需额外配置。
OpenCode 模型配置终极攻略:75+ 提供商随心换,免费到顶尖全搞定
🔥 同样的代码,有人烧钱请人写,有人零成本轻松搞定——关键全在模型配置。
不绑定任何一家 AI 厂商——OpenCode 让你像换手机壳一样切换大模型。从零成本的免费模型,到最强的 GPT 5.4 Pro,完全由你说了算。
OpenCode 模型架构的核心概念
为什么模型选择至关重要?
AI 编程工具的灵魂是大模型。模型直接决定:
- 代码质量:产出的代码能不能拿来即用
- 理解能力:能否读懂整个项目的上下文
- 响应速度:要等多久才能拿到答案
- 使用成本:每月需要花多少钱
现实问题:绝大多数 AI 编程工具只能使用自家模型。Cursor 仅限自家模型,Copilot 仅限 OpenAI,Claude Code 仅限 Claude。
OpenCode 打破了这道围墙——75+ 家模型提供商,选择权在你手中。
三层模型架构
OpenCode 的模型体系分成三层:云端模型、本地模型、OpenCode Zen 精选网关。
OpenCode 模型体系
云端模型
本地模型
OpenCode Zen精选网关
国际大厂OpenAI / Anthropic / Google
国内厂商智谱GLM / 通义Qwen / Kimi
聚合平台OpenRouter / Together AI
垂直平台Groq / Cerebras / xAI
Ollama
llama.cpp
LM Studio
免费模型Big Pickle / GPT 5 Nano
OpenCode 项目上下文实战:AGENTS.md 与 Skills 让 AI 读懂你的代码库
一条 /init 命令,AI 就能完整掌握你的项目语境。这并非魔法,而是靠 AGENTS.md 体系实现。
通用 AI 不知道你们团队的工作约定、代码风格、目录结构——AGENTS.md 就是你为 AI 编写的「项目操作手册」,Skills 则是提供「专项技能包」。两者结合,把 OpenCode 从「通用助手」升级为「项目专家」。
核心思路:为什么必须使用 AGENTS.md
通用 AI 的真正短板
想象你刚招募了一位技术很强但对项目零了解的开发者。他产出的代码功能也许没问题,但大概率会出现:
- 变量命名风格随意,与 camelCase / snake_case 不符
- 无视
packages/core/是共享逻辑区的约束 - 部署前忘记执行
pnpm lint - Git 提交信息与团队规范冲突
OpenCode 同样面临这个问题。 默认状态下它只是能力出众的 AI 编程助手——技术扎实,却对你的项目上下文一无所知。
AGENTS.md 就是项目的「上下文说明书」
AGENTS.md 是面向整个项目的 AI 配置文件,可以这样类比:
.editorconfig → 指导编辑器如何格式化代码
.gitignore → 告知 Git 忽略哪些文件
AGENTS.md → 让 AI 懂得项目的运行规则
类比:
.editorconfig供编辑器阅读,AGENTS.md供 AI 理解。两者均为项目级配置,理应纳入 Git 版本控制。
AGENTS.md 如何改变 AI 的行为
OpenCode 启动时,会把 AGENTS.md 的内容作为系统提示(System Prompt)的一部分注入每次对话。也就是说,无论你给 AI 分配何种任务,它都会自动遵循这里面定义的各项规则。
OpenCode智能代理体系:7大代理+14个工具,打造自主协作的AI开发团队
🔥 你有没有想过,AI 除了聊天,还能像一支真正的开发团队那样读代码、写代码、执行测试、甚至完成部署上线?
7 大智能代理 × 14 个内置工具——OpenCode 不只是一个“会写代码的聊天机器人”,它更像一个可以自主思考、分工协作、精准操控的 AI 开发团队。
📌 核心概念:两层能力架构
在上一篇文章《75+ 模型随心选——模型配置全攻略》中,我们完成了模型的挑选。但模型只是“大脑”,OpenCode 真正的能力来自它的指挥体系——代理(Agent) 和 工具(Tool)。
为什么需要代理和工具?
设想一个场景:你对 AI 说“重构整个用户认证模块”。如果只有一个通用 AI,它必须同时理解需求、规划步骤、读写文件、运行测试……什么都要做,什么都有可能搞砸。
OpenCode 的思路完全不同:让专业的代理去做专业的事,就像一个组织有序的开发团队:
你的自然语言指令
代理层 思考 · 规划 · 分工
工具层 读 · 写 · 执行 · 搜索
你的代码库 文件 / 命令 / 搜索
- 代理(Agent):决定“怎么思考”——分析、规划、分工、协作
- 工具(Tool):决定“能做什么”——读写文件、执行命令、搜索代码
💡 说明:OpenCode 还支持通过 MCP 连接外部工具链(数据库、API、云服务),这是第三层扩展能力。关于 MCP 的内容将安排在本系列第 4 篇《MCP 深度实战——连接开发工具链》中单独讲解,本文聚焦在代理与内置工具本身。
🤖 智能代理系统
7 大内置代理全景
OpenCode 内置了 7 个专用代理,按照职责可以分为三层:
| 代理 | 层级 | 角色定位 | 工具权限 | 典型场景 |
|---|---|---|---|---|
| Build | 主代理 | 构建者 | 全部工具 | 编写代码、修复缺陷、执行任务 |
| Plan | 主代理 | 规划者 | 文件编辑和 bash 默认需确认 | 分析项目、设计方案 |
| General | 子代理 | 全能型 | 除 todowrite 外全部工具 | 处理复杂子任务、并行工作 |
| Explore | 子代理 | 探索者 | 只读 | 搜索代码、理解架构 |
| Compaction | 系统代理 | 上下文压缩 | — | 自动压缩长对话 |
| Title | 系统代理 | 标题生成 | — | 为会话自动生成标题 |
| Summary | 系统代理 | 摘要生成 | — | 生成会话摘要 |
子代理(@ 调用)
OpenDataLoader PDF 开源引擎深度评测:0.907 综合准确率领跑,赋能 AI 数据流水线与 PDF 无障碍合规

核心亮点
OpenDataLoader PDF 是一款由韩国 Hancom 公司开源的 PDF 解析引擎,专为 AI 数据流水线和 PDF 无障碍合规场景设计。在公开基准测试中,它以 0.907 的综合准确率位列第一,既支持完全确定性的本地模式,也能在 AI 混合模式下自动调度复杂页面,无需 GPU 即可 100% 本地运行。
20.7k
GitHub 星标
0.907
综合准确率
Apache 2.0
开源协议
项目简介:它能做什么
做 AI 应用时,你一定遇到过这些棘手问题:PDF 中的表格被拆成乱序文本、多栏排版读出来顺序错误、扫描件里的文字完全丢失。市面上的工具要么太慢,要么太贵,要么精度太差。
OpenDataLoader PDF 要解决的正是这些问题:把 PDF “看懂”并转成机器可用的结构化格式。它不仅能提取文字,更理解文档的内在结构——知道哪里是标题、何处是表格、图片放在什么位置、正常的阅读顺序是怎样的。输出可以是干净的 Markdown、带有坐标信息的 JSON,或者可直接嵌入网页的 HTML。
面向的核心用户包括:AI 应用开发者(构建 RAG 知识库时需从 PDF 中提取结构化信息)、企业合规团队(应对欧盟 EAA 对 PDF 无障碍化的要求)、数据工程师(批量处理文档)。如果你只是普通用户,想在网页上使用 AI 阅读 PDF,这个项目可能并非刚需。
项目背景与社区反馈
该项目由拥有 35 年文档处理技术沉淀的韩国老牌软件公司 Hancom 开发并开源。Hancom 在韩国的地位可类比为“金山办公”。截至 2026 年 5 月,GitHub 已收获 20,686 颗星,fork 数达 1,914,是目前增长最快的 PDF 开源项目之一。
RHTV一站式AI视频创作工具全面体验:告别提示词与反复抽卡,全流程可视化掌控
今年以来,AI视频工具持续爆发。从年初字节跳动发布 Seedance 2.0,到可灵生成的 AI 短片《纸手机》火遍全网,再到阿里 HappyHorse 登上 Artificial Analysis 视频竞技场榜首。随后,内容创作者蜂拥而至,AI真人视频、AI漫剧、AI演唱会等内容频频刷屏,热度居高不下。

尽管内容创作的风口正盛,但真正动手做 AI 视频时才会发现,最让人崩溃的不是操作工具本身,而是在写脚本、调提示词、反复抽卡之间来回拉扯。我身边有位做 AI 短剧的朋友,拍到第三集时发现角色脸型开始飘移,和前两集已经不再是同一个人了,只能全部推倒重来,相当于白忙一天。
这并非个例,而是众多 AI 视频工具的共性缺陷——生成过程像黑盒,你看不见过程,更无法修改,只能一遍遍重新抽取。不过,最近体验了 RHTV 后,我眼前一亮:原来做 AI 视频可以不用苦苦编写提示词,也不必反复抽卡。
先看一个 RHTV 的优秀案例:
(视频来自Joe183,同时借这个视频提前祝所有妈妈们母亲节快乐!)
就让我们一起来看一看,这个AI工具到底有没有这么大的魔力。
RHTV是什么?
经常接触 AI 生图和视频的伙伴,大多听过或者用过 RunningHub——它是中国最大的 ComfyUI 平台。而 RHTV 正是由 RunningHub 出品的原生 AI 智能体全能内容创作平台。

通俗地说:你可以在同一张画布里完成文本创作→角色生成→场景搭建→分镜设计→视频生成→音频合成→剪辑输出的完整流程,再也不用在多个 AI 工具之间来回切换。
所有步骤清晰摆放在眼前,每一步做了什么,你都能看到;每一个环节都可以单独点进去修改。哪一帧不满意,直接改那一帧就好,其他部分原封不动。

或许有伙伴看到图示会觉得操作复杂,其实完全不用担心。你只需要说出想法,它就会帮你拆解流程:角色定稿、场景搭建、分镜规划、视频生成,全部由它推进,而你只需在每一步确认即可。
RHTV 实战:制作一条运动品牌短片
在 RHTV 中制作视频,同样可以一句话生成,就像其他 AI 视频工具那样。
比如,我想要做一条运动服装品牌推广短片,只给了它一句话的需求:
“都市街头风格,主角是穿运动服的年轻女生,展示跑步和跳绳的日常,要有节奏感,适合抖音发布。”
一般的 AI 工具会直接闷头生成视频,不满意的话就要反复抽卡,非常折腾。而 RHTV 的智能体会先自动思考,然后给出方案选项并让我确认一些信息。

确认方案后,画布会同步创建视频节点,并自动填好提示词和各项参数。我们只需核对一眼,点击确认执行,它就会立刻生成对应的素材。

接下来,它会让我们依次确认剧本、分镜、提示词等。
上下滑动查看更多

对所有信息逐一确认之后,RHTV 就能直接交付最终结果。
Superpowers + Claude Code 实战:从零搭建 FastAPI 认证脚手架实录
以 Superpowers 七阶段工作流为纲,借助 Claude Code 和 GLM 5.1 全程驱动,手把手构建一个可直接投产的 FastAPI + SQLAlchemy + Redis RESTful API 服务。
核心概念速览
这是什么?
这是一篇动手操作实录。我打开 Claude Code,使用 GLM 5.1 作为 Coding Plan 供应方,严格遵循 Superpowers 工作流,从空白项目开始,搭建一套完整的 Python FastAPI Server 脚手架。
最终交付物:一个提供用户注册、登录鉴权及受保护端点的 RESTful API 服务,可以直接作为任何 Python 后端项目的初始骨架。
为什么选择 Python?
2025–2026 年,Python 在 API 服务领域的采用率持续走高。FastAPI 的出现彻底扭转了“Python 不适合高性能 API”的旧印象:
- 异步原生:基于 Starlette 与 Pydantic,天生支持 async/await
- 自动文档:OpenAPI + Swagger UI 开箱即用,前端协作几乎零开销
- 类型安全:Pydantic v2 完成请求验证与序列化,运行时的类型检查能力甚至超过 Go 的 struct tag
- 生态无敌:覆盖 ML/AI、数据处理、自动运维,一站式解决能力无出其右
能解决哪些痛点?
- 想用 FastAPI 启动后端项目但缺乏完整参考实现
- 看过 FastAPI 官网教程,却不清楚生产级项目如何组织
- 需要一套可复用的 Python API 脚手架作为新项目的起点
- 想在 Go、Spring Boot、Rust、Python 这四种语言的脚手架间做横向对比
ClaudeCode 编码执行
阿里Wan2.7-Image深度实测:捏脸锁色、局部重绘,AI生图不再是开盲盒
你是否也有这样的体验:
用 AI 生成图像,跑出来的脸几乎一模一样,像是同一条流水线上贴了不同发型。好不容易调出一张满意的构图,想微调一个小细节,结果所有不想改动的地方全乱了。调色要“多巴胺风”,它给你荧光粉;要暗调电影感,它偏偏亮得刺眼。还有文字,要么干脆乱码,要么完全不按提示词来,根本没法直接用在封面或海报上。
这些痛点,做内容的人几乎每天都在踩坑。
上周,阿里发布了最新的生图模型 Wan2.7-Image,据说一口气把这几大难题打包解决了。我第一时间上手实测,看看这次更新究竟能给自媒体博主、电商从业者带来哪些实质变化。
下面就聊聊我实操后最真实的感受。
1. 告别千篇一律,捏出真正的“活人感”
做自媒体的都知道,想要一个有辨识度的人物配图,以前基本靠“抽卡”。AI 常常生成高颅顶、大眼睛、过度磨皮的脸——清一色的“AI感”,一眼就能看出不是真人。
Wan2.7-Image 这次打通了一套细颗粒度的捏脸系统,可以从骨骼结构、五官特征等维度精细描述,捏出真正拥有辨识度的面孔。
可调参数大致包括:
- 脸型:鹅蛋脸、圆脸、方脸、长方脸,甚至六角形脸。
- 眼部特征:杏仁眼、深邃眼窝、圆眼、丹凤眼。
- 肤色、发型、胡须、纹身、眼镜……几乎你能想到的所有细节都能独立控制。
想要什么脸,直接描述即可。
我分别用简单和复杂两组提示词做了测试。第一组用非常基础的提示词,没有精细控制任何五官:“一个年轻女性肖像,半身照,电影感光影,高清细节,真实皮肤质感”,一次生成 4 张。

结果 4 张图在脸型轮廓、颧骨位置、下颌线弧度上各自不同;皮肤纹理、毛孔、轻微泛红全部保留,没有那种过度磨皮的假面感。
接着我加大难度,用了一段很“刁钻”的提示词:
“正面半身肖像特写,人物平静地看向镜头。一位 35 岁左右的亚洲女性,长方脸型,骨骼感明显,颧骨微高,单眼皮,眼神带有沉静的阅历感。留着自然垂落的黑色中长直发。重点要求:绝对不要 AI 磨皮,必须保留真实的皮肤瑕疵,脸颊要有明显的色斑、雀斑和毛孔,眼底有轻微的细纹和暗沉。侧面窗边柔和的自然漫射光,背景是虚化的窗框和绿植,极强的纪实摄影质感与活人感。”

成图出来的瞬间,那种扑面而来的真实感确实让人有些恍惚。画面上不再是那个美颜拉满的假人,而是一个有血有肉、带着生活痕迹的真实女性。放大看,不均匀的色斑、细腻的毛孔、下颌角的自然阴影,甚至额前微微凌乱的碎发,都极度逼真。
对于做短剧、漫画这类需要多个不同角色持续出场的项目,再也不容易撞脸了。而对于电商和自媒体创作者来说,无论是定制专属模特形象,还是打造个人 IP 的虚拟分身,都能通过这项功能快速实现,不必再完全依赖真人拍摄与后期修图。
2. 精准调色,告别色彩抽盲盒
这是我这次测试里最惊喜的功能。
以前做品牌的内容,想统一视觉风格,每张图跑出来的颜色都不一样,后期调色调到怀疑人生。Wan2.7-Image 直接内置了调色盘功能,自带 6 个主流色系供我们选择。

也可以上传自己的图片来新增调色盘,让模型直接提取其中的主色。

生成的图像色彩非常到位,整体质感也很好。

然后,我故意做了一个刁难式的测试:生成一棵树,但把调色盘全部锁定在蓝色系,完全排除绿色。

在常规模型里,只要看到“树”这个词,潜意识一定会往里塞绿色,哪怕明确说了“蓝色”,它也常常偷偷加绿。但这次,整棵树的叶片、树干全部落在深蓝和青蓝色系里,没有一丝杂色;连树叶随风飘动的动态感都有了,却依然死死咬住那套蓝色,毫不动摇。
还有一个更贴近实际工作的场景:把品牌 Logo 上传进调色盘,它会自动提取你的品牌主色。之后不管生成什么图,整体配色都会自动对齐品牌 VI。做电商、做品牌内容的,以后批量出图,再也不用担心颜色跑偏了。
3. 超长文本渲染,文字终于不乱码了
AI 生图中的文字渲染,一直以来都是重灾区。英文里写个“SALE”你可能得到“SAIE”,中文更惨,经常就是一堆看起来像汉字其实读不出的鬼画符。
Wan2.7-Image 这次文本渲染能力大幅提升,支持 12 种语言、最高 3K tokens 的超长文本输入,很好地解决了模糊、错乱、漏写这些老问题。
比如,生成一张“书桌上一个笔记本上写着《Wish You Were Here》歌词的原文”的图片。
从零搭建 Rust 高性能 API 脚手架:Axum + SQLx + Redis 全流程实战,AI 编程加速指南
借助 Superpowers 七阶段工作流,全程在 Claude Code 与 GLM 5.1 的驱动下,从零构建一套可直接运行的 Axum + SQLx + Redis RESTful API 服务。
核心概念(3 分钟快速理解)
这是什么?
这是一份实战记录。我在本地启动 Claude Code,选用 GLM 5.1 作为 Coding Plan Provider,遵循 Superpowers 工作流,从头搭建了一套 Rust API Server 脚手架的全流程。
最终输出的是一套包含用户注册、登录鉴权以及受保护接口的 RESTful API 服务,可以直接作为任何 Rust 后端项目的起始代码。
为什么重要?
本系列的第 21、22 篇已经分别展示了 Go 和 Java 版本的 API Server 脚手架。本文是 Rust 版本——采用 2025‑2026 年后端领域增速最快的语言,结合同一套 Superpowers 工作流,展现 AI 编程在 Rust 上的实战效果。
公认 Rust 的学习曲线陡峭:所有权、生命周期、trait 系统等概念让许多开发者退避三舍。但有了 Claude Code,AI 可以协助处理大量类型系统和编译器报错,使你能够把注意力集中在业务逻辑本身。
能解决什么问题?
- 想尝试 Rust 后端开发却被编译器反复劝退
- 希望使用 Claude Code 搭建 Rust 项目但缺少参考
- 想要了解 Axum + SQLx 的标准集成方式
- 需要一套可复用、高性能的 Rust 脚手架作为起点
Claude Code 编码执行
