七千二百袋水泥
七千二百袋水泥
Published on 2025-06-07 / 1 Visits

绿联NAS AI Plugins深度评测:本地大模型GPU加速性能实测揭秘,实测数据揭示速度与效率的惊人提升

AI Plugins 是一个基于容器化技术构建的一站式大模型应用解决方案,它深度整合了 Open WebUI、Ollama 和 IPEX-LLM 三大核心组件。该应用不仅提供了便捷易用的用户交互界面,还通过高效调用 Intel GPU 的硬件加速能力,显著提升了大语言模型的运行效率与响应速度。

![Image](https://watermelonwater.tech/upload/imgs/绿联NAS推出AIPlugins本地模型使用GPU加速到底怎么样2.webp)Image

安装步骤详解

AI Plugins 可以通过绿联 NAS 的应用中心直接下载安装,操作过程简单便捷。

Image

目前,该功能仅兼容绿联 DXP480T Plus、DXP4800 Plus、DXP6800 系列以及 DXP8800 系列设备。

Image

对于其他系统用户,可参考先前教程部署 Open WebUI 和 Ollama 框架,依赖纯 CPU 运行本地模型,尽管性能受限但依然可行。

Open WebUI 自托管 AI 平台 Ollama 本地大模型框架

Docker Compose 配置示例如下:

services:    open-webui:      image: ghcr.io/open-webui/open-webui:main      container_name: open-webui      volumes:        - /volume1/docker/open-webui:/app/backend/data      ports:        - "11433:8080"  ​  ollama:      image: ollama/ollama:latest      container_name: ollama      volumes:        - /volume1/docker/ollama:/root/.ollama      ports:  
      - "11434:11434"

使用指南与界面操作

在浏览器中输入 http://NAS的IP:13888 即可访问 AI Plugins 的用户界面。

Image

点击“开始”按钮进入应用主页面。

Image

首次使用时需创建个人账号,按照提示填写必要信息完成注册。

Image

点击“确认,开始使用”即可登录系统。

Image

在右上角菜单中点击“设置”选项进行个性化调整。

Image

例如,切换为深色主题可优化视觉体验,便于截图展示效果。

Image

应用默认预装了 deepseek-r1:1.5b 模型供用户直接使用。

Image

点击搜索栏可下载其他模型,扩展功能范围。

Image

性能测试:GPU加速 vs 纯CPU推理

本次测试核心目标为对比 AI Plugins 调用核显加速与纯 CPU 推理在性能和速度上的差异。为确保结果客观,选取十个哲学问题作为提问样本,分别测试 deepseek-r1:7b 和 deepseek-r1:14b 两种模型规模。

测试硬件配置:

  • 设备:绿联 DXP480T Plus

  • 处理器:12th Gen Intel(R) Core(TM) i5-1235U

  • 内存:8+32GB DDR5 4800MHz

测试对象:

  • AI Plugins:深度整合方案,调用核显加速推理

  • Ollama + Open WebUI:纯 CPU 推理环境

测试模型:

  • deepseek-r1:7b

  • deepseek-r1:14b

测试问题列表:

  • 我们为什么存在?

  • 什么是真理?

  • 我们如何认识世界?

  • 人是否有自由意志?

  • 上帝存在吗?

  • 什么是正义?

  • 心灵和身体是什么关系?

  • 什么是幸福?

  • 美是什么?

  • 死亡意味着什么?

提示:因测试数据量较大,仅展示关键指标表格,省略过程截图。

GPU加速推理性能数据

使用绿联封装的 AI Plugins 调用核显加速推理,启动未加载模型时资源占用:CPU 1%、GPU 0%、内存 632MB。

Image

deepseek-r1:7b 模型测试结果:

CPU

GPU

内存

耗时

prompt token

response token

问题一

9

24

5.9

1m43s

8.35

3.71

问题二

9

25

6.0

1m25s

8.26

57.92

问题三

9

24

6.0

2m5s

8.17

187.57

问题四

9

24

6.0

1m51s

8.04

168.65

问题五

9

24

6.0

2m18s

8.09

58.79

问题六

9

24

6.1

1m44s

8.10

57.77

问题七

9

24

6.1

2m7s

8.09

59.97

问题八

9

24

6.1

1m36s

8.10

58.80

问题九

9

24

6.1

2m36s

8.08

60.12

问题十

9

24

6.1

1m45s

8.08

59.93

deepseek-r1:14b 模型测试结果:

CPU

GPU

内存

耗时

prompt token

response token

问题一

9

25

10.3

3m35s

4.13

2.02

问题二

9

25

10.4

3m37s

4.10

25.18

问题三

9

25

10.4

5m52s

3.99

33.92

问题四

9

25

10.4

6m5s

3.96

26.73

问题五

9

25

10.5

6m11s

3.96

26.40

问题六

9

25

10.5

6m15s

3.95

25.52

问题七

9

25

10.5

6m41s

3.96

26.90

问题八

9

25

10.5

6m37s

3.95

26.24

问题九

9

25

10.5

6m2s

3.95

26.29

问题十

9

25

10.5

4m43s

3.96

26.36

纯CPU推理性能数据

使用 Ollama + Open WebUI 进行纯 CPU 推理测试,启动未加载模型时资源占用:CPU 1%、GPU 0%、内存 566MB。

Image

deepseek-r1:7b 模型首次测试结果:

CPU

GPU

内存

耗时

prompt token

response token

问题一

1+17

0

5G+583MB

6m23s

2.08

0.21

问题二

1+17

0

5.3G+587MB

15m38s

0.96

1.48

问题三

1+17

0

5.3G+589MB

21m45s

1.58

1.31

问题四

1+17

0

5.3G+591MB

11m28s

2.43

6.21

问题五

1+17

0

5.5G+594MB

47m2s

0.94

0.96

问题六

1+17

0

5.6G+595MB

12m53s

2.55

3.47

问题七

1+17

0

5.6G+595MB

21m19s

1.81

2.09

问题八

1+17

0

5.6G+595MB

7m12s

1.27

2.66

问题九

1+17

0

5.6G+595MB

17m43s

1.12

2.27

问题十

1+17

0

5.6G+595MB

9m26s

2.06

3.92

因数据波动较大,进行 deepseek-r1:7b 模型二次测试:

CPU

GPU

内存

耗时

prompt token

response token

问题一

1+17

0

5.0G+547MB

3m9s

2.79

3.62

问题二

1+17

0

5.2G+552MB

18m46s

0.84

1.14

问题三

1+17

0

5.2G+554MB

12m21s

2.38

5.45

问题四

1+17

0

5.3G+555MB

20m38s

2.10

3.09

问题五

1+17

0

5.1G+555MB

17m24s

2.11

2.92

问题六

1+17

0

5.1G+556MB

9m36s

2.66

3.02

问题七

1+17

0

6.4G+567MB

9m0s

1.93

0.09

问题八

1+17

0

6.6G+568MB

13m41s

0.83

3.38

问题九

1+17

0

6.6G+568MB

5m26s

2.50

13.14

问题十

1+17

0

6.6G+568MB

4m53s

2.36

3.95

提示:纯 CPU 运行 14b 模型效率极低,用户体验较差,不建议常规使用。 deepseek-r1:14b 模型测试结果:

CPU

GPU

内存

耗时

prompt token

response token

问题一

1+17

0

10.9G+556MB

7m56s

1.41

1.62

问题二

1+17

0

11.2G+559MB

46m36s

0.55

1.08

问题三

1+17

0

11.2G+559MB

38m55s

1.03

2.05

问题四

1+17

0

11.2G+559MB

32m19s

0.61

1.60

问题五

1+17

0

11.2G+559MB

20m0s

1.34

1.74

问题六

1+17

0

16.7G+563MB

26m49s

1.09

1.45

问题七

1+17

0

16.6G+564MB

33m36s

1.28

1.45

问题八

1+17

0

16.4G+564MB

31m32s

1.29

1.73

问题九

1+17

0

16.1G+565MB

23m49s

1.16

1.71

问题十

1+17

0

16.1G+565MB

16m17s

0.72

1.72

QwQ-32B模型附加测试

QwQ-32B 大语言模型由阿里通义千问 Qwen 团队开发,这款 320 亿参数模型在性能上媲美甚至超越 DeepSeek-R1 的 6710 亿参数版本。

Image

测试表明,QwQ-32B 回复质量较高,体现了较强的智能水平,但作为 32b 模型,核显推理速度较慢,具体数据如下表所示。

Image

qwq:32b 模型测试结果:

CPU

GPU

内存

耗时

prompt token

response token

问题一

9

25

20.5

13m47s

1.78

1.97

问题二

9

25

20.6

38m59s

1.75

11.64

问题三

9

25

20.6

15m26s

1.83

11.92

问题四

9

25

20.8

19m39s

1.84

11.50

问题五

9

25

20.8

22m9s

1.84

11.34

问题六

9

25

20.8

22m49s

1.83

11.23

问题七

9

25

20.7

19m19s

1.83

11.77

问题八

9

25

20.7

16m14s

1.84

11.83

问题九

9

25

20.7

15m56s

1.84

11.73

问题十

9

25

20.6

16m13s

1.84

11.67

总结与建议

总体而言,绿联NAS的AI Plugins表现极为出色。初始观点可能低估了其价值,但实测证实IPEX-LLM技术实现了显著性能飞跃。

Image

测试数据清晰显示,相比纯CPU推理,GPU加速大幅提升响应速度并确保运行稳定性。核显资源的充分利用有效分担CPU负载,达成“事半功倍”的高效协同。

Image

然而,当前方案仅限局域网访问构成局限。建议绿联优化界面设计,开发原生适配Ollama的交互系统,以降低用户门槛,真正实现AI技术的生活化应用。

Image