Ebook2Audiobook 是一款功能强大的工具,能够将电子书高效转换为有声书格式。它集成了多种先进的文本转语音(TTS)模型,如 XTTSv2 和 Bark,不仅支持语音克隆技术,还涵盖超过 1110 种语言的处理能力。该工具能够自动将电子书按章节分割,并添加相应的元数据信息,提升音频的组织性和用户体验。在硬件方面,它兼容 CPU 和 GPU 加速运算,最低内存需求为 4GB,建议配置为 8GB 以确保流畅运行。
核心功能
- 📖 利用 Calibre 将电子书转换为文本格式,确保内容兼容性。
- 📚 自动拆分电子书章节,便于音频文件的系统化管理。
- 🎙️ 集成 Coqui XTTSv2 和 Fairseq 模型,提供高质量的文本转语音输出。
- 🗣️ 支持可选语音克隆功能,用户可上传个人语音文件实现定制化声音。
- 🌍 覆盖 1107 种语言处理能力,默认设置为英语,适应全球化需求。
- 🖥️ 优化设计,可在 4GB RAM 环境中稳定运行,降低硬件门槛。
支持的电子书格式
工具支持多种常见电子书格式,包括但不限于:.epub、.pdf、.mobi、.txt、.html、.rtf、.chm、.lit、.pdb、.fb2、.odt、.cbr、.cbz、.prc、.lrf、.pml、.snb、.cbc、.rb、.tcr。
安装指南
Docker Compose(CPU版本)
services:
ebook2audiobook:
image: athomasson2/ebook2audiobook:cpu
container_name: ebook2audiobook
ports:
- 7860:7860
volumes:
- /volume1/docker/ebook2audiobook/input_folder:/app/input_folder
- /volume1/docker/ebook2audiobook/audiobooks:/app/audiobooks
restart: always
Docker Compose(GPU版本)
services:
ebook2audiobook:
image: athomasson2/ebook2audiobook:latest
container_name: ebook2audiobook
ports:
- 7860:7860
volumes:
- /volume1/docker/ebook2audiobook/input_folder:/app/input_folder
- /volume1/docker/ebook2audiobook/audiobooks:/app/audiobooks
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
restart: always
参数说明
- 镜像版本:CPU 版本使用
athomasson2/ebook2audiobook:cpu
,GPU 版本替换为latest
。 - 输入路径:
/app/input_folder
用于存放待处理的电子书文件。 - 输出路径:
/app/audiobooks
用于保存生成的有声书音频文件。 - 更多详细参数建议参考官方文档以获取最新信息。
使用步骤
- 在浏览器中输入
http://NAS的IP:7860
访问操作界面。
界面默认支持中文,方便用户操作。
- 滚动至页面底部,点击设置按钮进入配置选项。
为便于演示,此处切换为深色模式界面。
- 选择电子书文件进行上传,建议初次测试时避免文件过大。
- 设置转换语音为中文或其他所需语言。
提示:上传文件时若出现网络检测问题,可能是由于工具需要下载依赖文件所致。
- 选择默认语音或上传自定义 WAV 文件进行语音克隆。
- 选择当前部署容器对应的平台选项(该功能目前可能尚未完全整合)。
- 比较不同 TTS 引擎的特点:
- XTTS:擅长多语言语音克隆。
- Bark:强于多样化语音风格和非语音元素生成。
- Tacotron:专注于高质量基础语音合成。
根据需求选择引擎,切换时界面会显示相应的设备性能要求。
- 选择输出音频格式,如 MP3 或 WAV。
- 保持其他参数为默认设置,点击生成按钮开始转换。
- 转换过程中,右下角会显示预计完成时间。例如,处理 7.8KB 文本大约需 3 分钟。
- 后台监控显示,GPU 显存占用约 4GB。
- 内存占用较高,约 4.5GB。
- 生成完成后,音频文件保存在
/audiobooks
路径下。
- 用户可下载或在线播放音频,但效果可能需进一步优化。
- 如果对效果不满意,可通过调整参数进行优化。
总结评价
Ebook2Audiobook 作为一款电子书转有声书工具,在格式兼容性和语言支持方面表现突出,能够满足多样化的用户需求。然而,它对硬件配置要求较高,至少需要 4GB 显卡显存,且资源占用较大,可能对低配置设备造成压力。生成音频的效果中等,可能需要用户调整参数以提升质量。
- 综合推荐:⭐⭐⭐(格式支持广泛,但细节需优化)
- 使用体验:⭐⭐⭐(操作简便,但存在一些小问题)
- 部署难度:⭐⭐(过程简单易行)