七千二百袋水泥
七千二百袋水泥
Published on 2025-10-16 / 1 Visits

超详细教程:开源AI数字人DuixAvatar Docker本地部署全攻略,从环境配置到视频生成完整指南

Duix.Avatar(原名HeyGem)是由Duix.com开发的一款免费开源AI数字人项目,支持本地部署和API调用功能。用户只需上传一段约10秒的视频素材,就能快速完成数字人形象和声音的克隆过程。通过输入文本内容或上传音频文件,可以驱动数字人的口型动作,自动生成高质量的口播视频内容。

Image

核心功能特性

  • • 精准的形象与声音克隆技术:仅需上传一段约10秒的视频片段,即可高效完成数字人形象和声音的精准克隆。
  • • 多种驱动方式支持:用户可以通过输入文本内容或上传音频文件来驱动数字人口型,自动生成口播播报视频。
  • • 全离线操作模式:无需联网即可使用所有功能,有效保障用户数据隐私和安全。
  • • 高效视频合成能力:实现数字人视频画面与声音的高度同步,确保口型匹配自然流畅。
  • • 多语言脚本支持:支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语八种语言。

推荐硬件配置

  • • CPU处理器:第13代英特尔酷睿i5-13400F
  • • 内存容量:32G及以上(必要条件)
  • • 显卡型号:rtx-4070

使用提示

当前版本客户端无法修改路径和调用的API接口,因此建议将客户端和服务器部署在同一台设备上。但由于我的独立显卡安装在NAS设备上,而客户端运行在Windows系统,实际操作过程中会遇到一些配置挑战。有类似需求的用户可以参考以下方法进行简单调整。

服务端部署指南

访问项目官方地址:https://github.com/duixcom/Duix.Avatar

Image

点击打开deploy目录

Image

四种配置模板的区别:

# Windows基础完整版 docker-compose.yml  
# Windows 50系列显卡专用版 docker-compose-5090.yml  
# Windows轻量版 docker-compose-lite.yml  
# Ubuntu完整版 docker-compose-linux.yml

根据您的硬件配置和操作系统选择合适版本

Image

我选择在NAS上部署,因此选用docker-compose-linux.yml文件

Image

默认配置可以直接部署,但由于我采用调用方式,需要修改路径设置(建议先部署,后续根据实际情况调整)

Image

服务端部署成功后的资源占用情况

Image

显卡运行正常,项目启动时可以看到调用检测信息

Image

在浏览器中输入http://NAS的IP:18180可以访问API界面

Image

客户端安装与使用

访问项目页面,点击下载打包好的文件

Image

根据操作系统类型,下载对应的客户端文件

Image

下载完成后,按照默认设置进行安装

Image

打开软件后显示主界面,点击快速定制功能

Image

上传一段8秒以上的视频素材,点击提交定制按钮

Image

跨设备部署解决方案

理论上,如果服务端和客户端部署在同一台设备上,系统可以正常运行。但当服务端和客户端位于不同设备时,由于客户端无法配置路径和端口,会出现错误提示。以下是具体处理方法。

系统提示路径问题,无法找到D盘的heygem_data目录

Image

由于我的设备只有C盘,系统自然无法找到指定路径

Image

通过SMB协议将网络驱动器映射为D盘,确保路径为D盘(如果已有D盘,需先修改原有驱动器盘符)

Image

确保D盘可访问后,在根目录下可以看到heygem_data文件夹(在NAS项目部署时需灵活映射路径)

Image

路径问题解决后,系统会提示无法调用本地API,因为实际地址指向NAS设备

Image

下载NGINX软件:https://nginx.org/en/download.html

Image

解压ZIP文件,找到nginx.conf配置文件

Image

直接覆盖原有配置,将目标服务器修改为对应的IP地址

worker_processes  auto;  
  
events {  
    worker_connections  1024;  
}  
  
http {  
    include       mime.types;  
    default_type  application/octet-stream;  
  
    sendfile        on;  
    tcp_nopush      on;  
    keepalive_timeout  65;  
  
    # 通用代理头  
    proxy_set_header Host $host;  
    proxy_set_header X-Real-IP $remote_addr;  
    proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;  
    proxy_set_header X-Forwarded-Proto $scheme;  
  
    # 服务1  
    server {  
        listen 18180;  
        location / {  
            proxy_pass http://192.168.31.100:18180;  
            # WebSocket支持  
            proxy_http_version 1.1;  
            proxy_set_header Upgrade $http_upgrade;  
            proxy_set_header Connection "upgrade";  
            proxy_read_timeout 3600s;  
        }  
    }  
  
    # 服务2  
    server {  
        listen 10095;  
        location / {  
            proxy_pass http://192.168.31.100:10095;  
            # WebSocket支持  
            proxy_http_version 1.1;  
            proxy_set_header Upgrade $http_upgrade;  
            proxy_set_header Connection "upgrade";  
            proxy_read_timeout 3600s;  
        }  
    }  
  
    # 服务3  
    server {  
        listen 8383;  
        location / {  
            proxy_pass http://192.168.31.100:8383;  
            # WebSocket支持  
            proxy_http_version 1.1;  
            proxy_set_header Upgrade $http_upgrade;  
            proxy_set_header Connection "upgrade";  
            proxy_read_timeout 3600s;  
        }  
    }  
}

打开CMD命令行,进入nginx.exe所在目录,输入命令:nginx.exe

Image

在客户端浏览器中输入http://127.0.0.1:18180可以访问API界面(保持CMD窗口开启)

Image

之前生成的视频没有声音,这里更换了另一个视频素材

Image

日志信息显示系统成功识别出视频的语音内容

Image

至此,数字模特制作过程顺利完成

Image

选择制作视频功能

Image

首先测试文本合成功能,输入内容后点击试听按钮

Image

此时显卡已经开始调用资源

Image

生成的语音与原始视频声音基本一致

Image

音频合成功能需要上传音频文件

Image

无论是文本还是音频输入,最后点击合成视频按钮

Image

提交任务后,可以查看制作进度

Image

不同性能显卡的渲染时间各不相同,我使用的是A2000LP 8GB显卡

Image

日志信息显示系统在持续运行

Image

最终视频合成失败,具体原因尚不明确

Image

使用体验与总结

Duix.Avatar作为一款开源免费的AI数字人工具,整体表现符合预期水平。其核心优势在于仅需10秒视频就能完成形象与声音的克隆,支持多语言文本或音频驱动数字人口型,全离线操作保障用户隐私,视频合成的同步性也较为理想。

然而,在实际使用过程中存在一些问题,特别是当服务端与客户端不在同一设备时,需要借助SMB映射磁盘和NGINX代理来解决连接问题,这对新手用户来说存在一定技术门槛。总体而言,该工具对于需要制作AI数字人视频的用户具有实用价值,在二手平台上也能找到许多关于本地部署的教程资源。

综合推荐指数:⭐⭐⭐(表现中规中矩,普通用户可能用不上)

使用体验评分:⭐⭐⭐(客户端灵活性不足,跨设备操作需要额外步骤)

部署难度评估:⭐⭐⭐(中等难度)