七千二百袋水泥
七千二百袋水泥
Published on 2025-09-21 / 3 Visits

NAS平台电子书转有声书神器Ebook2Audiobook完整教程:支持1100+语言与语音克隆功能,基于Docker一键部署指南

Ebook2Audiobook 是一款功能强大的工具,能够将电子书高效转换为有声书格式。它集成了多种先进的文本转语音(TTS)模型,如 XTTSv2 和 Bark,不仅支持语音克隆技术,还涵盖超过 1110 种语言的处理能力。该工具能够自动将电子书按章节分割,并添加相应的元数据信息,提升音频的组织性和用户体验。在硬件方面,它兼容 CPU 和 GPU 加速运算,最低内存需求为 4GB,建议配置为 8GB 以确保流畅运行。

Image

核心功能

  • 📖 利用 Calibre 将电子书转换为文本格式,确保内容兼容性。
  • 📚 自动拆分电子书章节,便于音频文件的系统化管理。
  • 🎙️ 集成 Coqui XTTSv2 和 Fairseq 模型,提供高质量的文本转语音输出。
  • 🗣️ 支持可选语音克隆功能,用户可上传个人语音文件实现定制化声音。
  • 🌍 覆盖 1107 种语言处理能力,默认设置为英语,适应全球化需求。
  • 🖥️ 优化设计,可在 4GB RAM 环境中稳定运行,降低硬件门槛。

支持的电子书格式

工具支持多种常见电子书格式,包括但不限于:.epub、.pdf、.mobi、.txt、.html、.rtf、.chm、.lit、.pdb、.fb2、.odt、.cbr、.cbz、.prc、.lrf、.pml、.snb、.cbc、.rb、.tcr。

安装指南

Docker Compose(CPU版本)

services:  
  ebook2audiobook:  
    image: athomasson2/ebook2audiobook:cpu  
    container_name: ebook2audiobook  
    ports:  
      - 7860:7860  
    volumes:  
      - /volume1/docker/ebook2audiobook/input_folder:/app/input_folder  
      - /volume1/docker/ebook2audiobook/audiobooks:/app/audiobooks  
    restart: always

Docker Compose(GPU版本)

services:  
  ebook2audiobook:  
    image: athomasson2/ebook2audiobook:latest  
    container_name: ebook2audiobook  
    ports:  
      - 7860:7860  
    volumes:  
      - /volume1/docker/ebook2audiobook/input_folder:/app/input_folder  
      - /volume1/docker/ebook2audiobook/audiobooks:/app/audiobooks  
    deploy:  
      resources:  
        reservations:  
          devices:  
            - driver: nvidia  
              count: all  
              capabilities: [gpu]  
    restart: always

参数说明

  • 镜像版本:CPU 版本使用 athomasson2/ebook2audiobook:cpu,GPU 版本替换为 latest
  • 输入路径/app/input_folder 用于存放待处理的电子书文件。
  • 输出路径/app/audiobooks 用于保存生成的有声书音频文件。
  • 更多详细参数建议参考官方文档以获取最新信息。

使用步骤

  1. 在浏览器中输入 http://NAS的IP:7860 访问操作界面。

Image

界面默认支持中文,方便用户操作。

Image

  1. 滚动至页面底部,点击设置按钮进入配置选项。

Image

为便于演示,此处切换为深色模式界面。

Image

  1. 选择电子书文件进行上传,建议初次测试时避免文件过大。

Image

  1. 设置转换语音为中文或其他所需语言。

Image

提示:上传文件时若出现网络检测问题,可能是由于工具需要下载依赖文件所致。

Image

  1. 选择默认语音或上传自定义 WAV 文件进行语音克隆。

Image

  1. 选择当前部署容器对应的平台选项(该功能目前可能尚未完全整合)。

Image

  1. 比较不同 TTS 引擎的特点:
    • XTTS:擅长多语言语音克隆。
    • Bark:强于多样化语音风格和非语音元素生成。
    • Tacotron:专注于高质量基础语音合成。
      根据需求选择引擎,切换时界面会显示相应的设备性能要求。

Image

  1. 选择输出音频格式,如 MP3 或 WAV。

Image

  1. 保持其他参数为默认设置,点击生成按钮开始转换。

Image

  1. 转换过程中,右下角会显示预计完成时间。例如,处理 7.8KB 文本大约需 3 分钟。

Image

  1. 后台监控显示,GPU 显存占用约 4GB。

Image

  1. 内存占用较高,约 4.5GB。

Image

  1. 生成完成后,音频文件保存在 /audiobooks 路径下。

Image

  1. 用户可下载或在线播放音频,但效果可能需进一步优化。

Image

  1. 如果对效果不满意,可通过调整参数进行优化。

Image

总结评价

Ebook2Audiobook 作为一款电子书转有声书工具,在格式兼容性和语言支持方面表现突出,能够满足多样化的用户需求。然而,它对硬件配置要求较高,至少需要 4GB 显卡显存,且资源占用较大,可能对低配置设备造成压力。生成音频的效果中等,可能需要用户调整参数以提升质量。

  • 综合推荐:⭐⭐⭐(格式支持广泛,但细节需优化)
  • 使用体验:⭐⭐⭐(操作简便,但存在一些小问题)
  • 部署难度:⭐⭐(过程简单易行)