七千二百袋水泥

七千二百袋水泥

Published on 2025-09-21 / 87 Visits

NAS平台电子书转有声书神器Ebook2Audiobook完整教程：支持1100+语言与语音克隆功能，基于Docker一键部署指南

Ebook2Audiobook 是一款功能强大的工具，能够将电子书高效转换为有声书格式。它集成了多种先进的文本转语音（TTS）模型，如 XTTSv2 和 Bark，不仅支持语音克隆技术，还涵盖超过 1110 种语言的处理能力。该工具能够自动将电子书按章节分割，并添加相应的元数据信息，提升音频的组织性和用户体验。在硬件方面，它兼容 CPU 和 GPU 加速运算，最低内存需求为 4GB，建议配置为 8GB 以确保流畅运行。

核心功能

📖 利用 Calibre 将电子书转换为文本格式，确保内容兼容性。
📚 自动拆分电子书章节，便于音频文件的系统化管理。
🎙️ 集成 Coqui XTTSv2 和 Fairseq 模型，提供高质量的文本转语音输出。
🗣️ 支持可选语音克隆功能，用户可上传个人语音文件实现定制化声音。
🌍 覆盖 1107 种语言处理能力，默认设置为英语，适应全球化需求。
🖥️ 优化设计，可在 4GB RAM 环境中稳定运行，降低硬件门槛。

支持的电子书格式

工具支持多种常见电子书格式，包括但不限于：.epub、.pdf、.mobi、.txt、.html、.rtf、.chm、.lit、.pdb、.fb2、.odt、.cbr、.cbz、.prc、.lrf、.pml、.snb、.cbc、.rb、.tcr。

安装指南

Docker Compose（CPU版本）

services:  
  ebook2audiobook:  
    image: athomasson2/ebook2audiobook:cpu  
    container_name: ebook2audiobook  
    ports:  
      - 7860:7860  
    volumes:  
      - /volume1/docker/ebook2audiobook/input_folder:/app/input_folder  
      - /volume1/docker/ebook2audiobook/audiobooks:/app/audiobooks  
    restart: always

Docker Compose（GPU版本）

services:  
  ebook2audiobook:  
    image: athomasson2/ebook2audiobook:latest  
    container_name: ebook2audiobook  
    ports:  
      - 7860:7860  
    volumes:  
      - /volume1/docker/ebook2audiobook/input_folder:/app/input_folder  
      - /volume1/docker/ebook2audiobook/audiobooks:/app/audiobooks  
    deploy:  
      resources:  
        reservations:  
          devices:  
            - driver: nvidia  
              count: all  
              capabilities: [gpu]  
    restart: always

参数说明

镜像版本：CPU 版本使用 athomasson2/ebook2audiobook:cpu，GPU 版本替换为 latest。
输入路径：/app/input_folder 用于存放待处理的电子书文件。
输出路径：/app/audiobooks 用于保存生成的有声书音频文件。
更多详细参数建议参考官方文档以获取最新信息。

使用步骤

在浏览器中输入 http://NAS的IP:7860 访问操作界面。

界面默认支持中文，方便用户操作。

滚动至页面底部，点击设置按钮进入配置选项。

为便于演示，此处切换为深色模式界面。

选择电子书文件进行上传，建议初次测试时避免文件过大。

设置转换语音为中文或其他所需语言。

提示：上传文件时若出现网络检测问题，可能是由于工具需要下载依赖文件所致。

选择默认语音或上传自定义 WAV 文件进行语音克隆。

选择当前部署容器对应的平台选项（该功能目前可能尚未完全整合）。

比较不同 TTS 引擎的特点：
- XTTS：擅长多语言语音克隆。
- Bark：强于多样化语音风格和非语音元素生成。
- Tacotron：专注于高质量基础语音合成。
  根据需求选择引擎，切换时界面会显示相应的设备性能要求。

选择输出音频格式，如 MP3 或 WAV。

保持其他参数为默认设置，点击生成按钮开始转换。

转换过程中，右下角会显示预计完成时间。例如，处理 7.8KB 文本大约需 3 分钟。

后台监控显示，GPU 显存占用约 4GB。

内存占用较高，约 4.5GB。

生成完成后，音频文件保存在 /audiobooks 路径下。

用户可下载或在线播放音频，但效果可能需进一步优化。

如果对效果不满意，可通过调整参数进行优化。

总结评价

Ebook2Audiobook 作为一款电子书转有声书工具，在格式兼容性和语言支持方面表现突出，能够满足多样化的用户需求。然而，它对硬件配置要求较高，至少需要 4GB 显卡显存，且资源占用较大，可能对低配置设备造成压力。生成音频的效果中等，可能需要用户调整参数以提升质量。

综合推荐：⭐⭐⭐（格式支持广泛，但细节需优化）
使用体验：⭐⭐⭐（操作简便，但存在一些小问题）
部署难度：⭐⭐（过程简单易行）