BiliNote开源AI视频笔记工具：一键转写B站、YouTube等视频为结构化Markdown笔记

December 1, 2025

视频内容已成为人们获取知识、记录观点和进行内容创作的关键媒介。与图文形式相比，视频的信息呈现方式更为生动丰富，但同时也带来了信息检索困难、难以快速回顾与整理的挑战。尤其是在面对教育讲座、操作教程、会议录播等长视频内容时，用户往往希望从中提炼出一份条理清晰的笔记，以供后续学习或参考。然而，手动整理视频笔记的过程通常繁琐耗时，并且极易遗漏重点。因此，借助人工智能工具自动提取视频内容并生成结构化的笔记，正演变为一种高效且主流的技术解决方案。

本期将详细介绍一款名为BiliNote的开源AI视频笔记生成工具，它能够自动分析视频内容并为你创建格式规范的笔记。

BiliNote项目概述

BiliNote 是一款功能强大的开源AI视频笔记助手。它支持通过输入哔哩哔哩、YouTube、抖音等平台的视频链接，或直接上传本地视频文件，自动提取其中的语音内容，并将其智能转化为结构清晰、重点突出的 Markdown 格式笔记。

该工具基于 FastAPI 后端和 React 前端构建，支持用户部署自己的GPT模型或直接调用 OpenAI 等第三方API接口来完成内容的总结与润色。同时，它也集成了 Whisper 等本地语音识别模型选项，以保障隐私与处理的灵活性。BiliNote 不仅能够生成文本笔记，还提供视频截图插入、通过时间戳一键跳转回原片、任务进度追踪等实用功能，以适应不同场景下的工作流需求。在部署方式上，用户既可以选择简便的 Windows/Mac 打包版直接运行，也可以通过 Docker Compose 进行容器化部署，非常适合个人学习使用或团队私有化部署环境。

BiliNote的实际应用场景

以下列举了 BiliNote 能够高效发挥作用的一些典型场景，但实际应用远不止于此：

学习与知识管理：在观看B站公开课、技术研讨会等学习类视频时，用户可以使用 BiliNote 自动生成包含章节标题、核心要点总结的 Markdown 笔记，便于日后复习。生成的笔记内嵌时间戳链接，点击即可快速跳转到视频对应位置进行回看。
企业内部培训复盘：运营或产品团队在回顾公司内部的培训录播视频时，可以利用该工具快速提取关键信息点并同步生成任务记录，从而免去重复观看整段视频的时间消耗。
内容创作与调研：短视频创作者或编辑在进行选题调研时，可将抖音或 YouTube 的视频链接导入 BiliNote，系统会自动生成视频内容的结构草稿，并抓取关键语句与截图作为素材积累。
会议与播客纪要整理：在完成视频会议或播客录制后，可以将本地音视频文件上传至 BiliNote，通过 Whisper 进行语音转写，再结合 GPT 模型进行总结，自动生成一份完整的内容纪要。

BiliNote部署步骤详解

部署前准备说明

本次演示设备为威联通NAS，具体型号是TS-464C，搭载N5095处理器。下文将重点介绍使用 Docker Compose 方式部署 BiliNote 的流程。相关的配置文件，以及包含Windows打包版在内的完整资源包，已整理至文末，方便网络访问不便的用户取用。项目在 GitHub 上的名称为 JefferyHcool/BiliNote，感兴趣的用户可直接搜索查看详情。修改配置时，可以通过 SSH 使用 vi 命令，或利用 NAS 自带的文件编辑器进行操作。除非您对配置项有明确了解，否则建议仅修改 docker-compose.yml 或 .env.example 文件，或者直接使用默认配置进行部署。如果您的设备配备独立显卡，或对设备性能存在疑虑，请务必查阅后续的注意事项章节。

部署方法一：可正常访问GitHub

通过SSH连接到您的NAS设备，输入以下命令克隆项目部署仓库。

cd <docker 目录下> # 例如在威联通NAS上，可输入 cd /share/Container  
 
git clone https://github.com/JefferyHcool/BiliNote.git  
 
cd BiliNote

接着输入命令，查看目录下的文件列表：

ls -al

确认文件存在后，继续执行以下命令以完成部署：

# 将环境配置示例文件重命名为实际使用的文件  
mv .env.example .env  
 
# 构建Docker镜像并启动容器服务  
docker compose up -d # 部分环境也可使用 docker-compose up -d 命令

随后等待系统自动完成部署流程即可。

部署方法二：无法直接访问GitHub

首先，从文末提供的链接下载预先打包好的文件资源。在NAS上创建一个对应的文件目录，例如威联通NAS的 /share/Container/BiliNote 路径，将下载并解压后的全部文件放入此目录中。您可以使用NAS自带的文本编辑器，将 .env.example 文件重命名为 .env。如果系统中看不到以点开头的文件，请在文件管理器设置中勾选“显示隐藏文件”选项。重命名完成后，通过SSH执行以下命令（与情况一的后半部分相同）：

# 切换到BiliNote项目目录  
cd /share/Container/BiliNote  
  
# 如果之前未重命名，执行此命令（已重命名可跳过）  
mv .env.example .env  
  
# 构建并启动容器  
docker compose up -d

之后等待部署过程完成。

部署注意事项与配置解析

环境配置文件 `.env` 详解

以下是对关键配置项的说明，用户可根据自身环境进行调整：

BACKEND_PORT=8483     # 后端服务监听的端口号，默认为8483  
FRONTEND_PORT=3015    # 前端Web页面服务的端口号，默认为3015  
BACKEND_HOST=0.0.0.0  # 后端服务绑定的IP地址。默认0.0.0.0表示监听所有网络接口，通常无需修改  
APP_PORT= 3015        # 容器内前端应用的访问端口，应与FRONTEND_PORT保持一致  
  
VITE_API_BASE_URL=http://127.0.0.1:8483   # 前端访问后端API的基础地址（主要用于开发环境）  
VITE_SCREENSHOT_BASE_URL=http://127.0.0.1:8483/static/screenshots  # 前端加载视频截图的资源地址  
VITE_FRONTEND_PORT=3015                   # 前端项目运行端口，需与上述端口一致  
  
ENV=production                   # 运行环境模式，可选 development（开发） 或 production（生产）  
STATIC=/static                   # 静态资源URL的路径前缀，默认为 /static  
OUT_DIR=./static/screenshots     # 视频截图文件的保存路径（相对路径）  
NOTE_OUTPUT_DIR=note_results     # 生成的笔记结果输出目录（Markdown文件及状态文件存放于此）  
IMAGE_BASE_URL=/static/screenshots # 前端访问图片资源的路径前缀  
DATA_DIR=data                   # 数据文件存储目录，用于存放语音转写等过程中的缓存数据  
  
FFMPEG_BIN_PATH=                 # 可选配置：如需指定自定义的ffmpeg路径可在此填写；默认使用系统内嵌的ffmpeg  
  
TRANSCRIBER_TYPE=fast-whisper    # 指定语音转文字所使用的引擎类型  
                                 # 可选值包括：  
                                 # - fast-whisper（推荐选项，支持CPU/GPU加速）  
                                 # - bcut（调用字节跳动云API进行转写）  
                                 # - kuaishou（调用快手云API进行转写）  
                                 # - mlx-whisper（仅适用于Apple MLX框架的设备）  
                                 # - groq（使用Groq平台提供的Whisper服务）  
  
WHISPER_MODEL_SIZE=base          # 当使用fast-whisper时，指定模型尺寸（可选：base、small、medium、large）  
  
# 如果 TRANSCRIBER_TYPE 设置为 groq，则需配置以下模型  
GROQ_TRANSCRIBER_MODEL=whisper-large-v3-turbo   # 指定Groq平台提供的模型，例如 whisper-large-v3-turbo

语音识别引擎配置建议

如果您的部署设备配备了独立显卡，建议修改 .env 文件中的相关配置，并考虑使用 docker-compose.gpu.yml 文件进行构建以启用GPU加速。以威联通TS-464C为例，其CPU性能在默认配置下尚可胜任基础模型运算。若设备性能较低，则建议选用更小的 Whisper 模型尺寸（如 small 或 base），以避免因算力不足导致处理时间过长或转写结果出现偏差。.env 中关于语音识别的默认配置如下：

TRANSCRIBER_TYPE=fast-whisper # 可选：fast-whisper / bcut / kuaishou / mlx-whisper（仅Apple平台）/ groq  
 
WHISPER_MODEL_SIZE=base  
 
GROQ_TRANSCRIBER_MODEL=whisper-large-v3-turbo # groq平台提供的加速模型，默认为 whisper-large-v3-turbo

Fast-Whisper 模型选择参考

模型尺寸越大，通常转写准确率越高，但所需的计算资源和时间也相应增加。请根据设备性能权衡选择。下图来自项目官方文档，供参考：

BiliNote功能演示与使用指南

部署完成后，系统需要一些时间初始化环境。当您在容器日志中看到类似下图的输出时，表明服务已启动成功，此时可以通过浏览器访问前端界面。在浏览器地址栏输入 您的NAS_IP:3015 即可访问。初次访问时，可能会短暂显示错误页面或加载提示，这是正常现象，请稍等片刻待后端服务完全就绪。下图是成功进入系统后的日志输出示例，可作为部署成功的参考。此时，所有功能应均可正常使用。 BiliNote 的主界面简洁明了，支持直接粘贴哔哩哔哩、YouTube、抖音、快手等平台的视频链接，也支持上传本地视频文件进行处理。工具提供多样化的输出格式选项，用户可以选择生成带目录结构的笔记、包含时间戳的原片跳转链接、关键帧截图，以及不同风格的AI内容总结等。系统内置支持多个主流大型语言模型供应商的API调用，同时也兼容本地部署的Ollama等模型。为获得理想的总结效果，请确保所选用的模型具备较强的文本理解和概括能力。关于各平台API密钥的获取方式，请用户自行查阅相关文档。用户也可以根据需求，在设置中自行添加其他AI服务提供商，但需注意接口的兼容性。对于需要处理平台会员或区域限制视频的用户，可以在设置中配置相应的Cookie信息，具体操作方法在此不赘述。以下使用一个YouTube视频链接进行实际演示。随机选择一个时长约8分钟的三星手机评测视频，将链接粘贴到BiliNote中并提交处理，系统很快便完成了笔记生成（下图动图为2.5倍速播放）。生成的笔记效果如下图所示。笔记支持以思维导图模式浏览，支持全文内容一键复制，可以导出为标准Markdown文件，并提供原文对照。点击笔记中的任意时间戳，即可在新窗口中跳转到视频的对应时间点播放。

BiliNote工具总结与展望

BiliNote 所提供的“原片跳转”功能极大地提升了视频笔记的实用性与复习效率。据悉，项目开发者未来可能会增加直接导入外部字幕文件进行智能总结的功能，这将进一步扩展其应用场景。对于有高频视频笔记处理需求的用户，建议在性能较强的 CPU 或 GPU 设备上部署该工具，以获得更快的处理速度和更佳的使用体验。