绿联NAS AI Plugins深度评测：本地大模型GPU加速性能实测揭秘，实测数据揭示速度与效率的惊人提升

AI Plugins 是一个基于容器化技术构建的一站式大模型应用解决方案，它深度整合了 Open WebUI、Ollama 和 IPEX-LLM 三大核心组件。该应用不仅提供了便捷易用的用户交互界面，还通过高效调用 Intel GPU 的硬件加速能力，显著提升了大语言模型的运行效率与响应速度。

![Image](https://watermelonwater.tech/upload/imgs/绿联NAS推出AIPlugins本地模型使用GPU加速到底怎么样2.webp)

安装步骤详解

AI Plugins 可以通过绿联 NAS 的应用中心直接下载安装，操作过程简单便捷。

目前，该功能仅兼容绿联 DXP480T Plus、DXP4800 Plus、DXP6800 系列以及 DXP8800 系列设备。

对于其他系统用户，可参考先前教程部署 Open WebUI 和 Ollama 框架，依赖纯 CPU 运行本地模型，尽管性能受限但依然可行。

Open WebUI 自托管 AI 平台 Ollama 本地大模型框架

Docker Compose 配置示例如下：

services:    open-webui:      image: ghcr.io/open-webui/open-webui:main      container_name: open-webui      volumes:        - /volume1/docker/open-webui:/app/backend/data      ports:        - "11433:8080"    ollama:      image: ollama/ollama:latest      container_name: ollama      volumes:        - /volume1/docker/ollama:/root/.ollama      ports:

      - "11434:11434"

使用指南与界面操作

在浏览器中输入 http://NAS的IP:13888 即可访问 AI Plugins 的用户界面。

点击“开始”按钮进入应用主页面。

首次使用时需创建个人账号，按照提示填写必要信息完成注册。

点击“确认，开始使用”即可登录系统。

在右上角菜单中点击“设置”选项进行个性化调整。

例如，切换为深色主题可优化视觉体验，便于截图展示效果。

应用默认预装了 deepseek-r1:1.5b 模型供用户直接使用。

点击搜索栏可下载其他模型，扩展功能范围。

性能测试：GPU加速 vs 纯CPU推理

本次测试核心目标为对比 AI Plugins 调用核显加速与纯 CPU 推理在性能和速度上的差异。为确保结果客观，选取十个哲学问题作为提问样本，分别测试 deepseek-r1:7b 和 deepseek-r1:14b 两种模型规模。

测试硬件配置：

设备：绿联 DXP480T Plus
处理器：12th Gen Intel(R) Core(TM) i5-1235U
内存：8+32GB DDR5 4800MHz

测试对象：

AI Plugins：深度整合方案，调用核显加速推理
Ollama + Open WebUI：纯 CPU 推理环境

测试模型：

deepseek-r1:7b
deepseek-r1:14b

测试问题列表：

我们为什么存在？
什么是真理？
我们如何认识世界？
人是否有自由意志？
上帝存在吗？
什么是正义？
心灵和身体是什么关系？
什么是幸福？
美是什么？
死亡意味着什么？

提示：因测试数据量较大，仅展示关键指标表格，省略过程截图。

GPU加速推理性能数据

使用绿联封装的 AI Plugins 调用核显加速推理，启动未加载模型时资源占用：CPU 1%、GPU 0%、内存 632MB。

deepseek-r1:7b 模型测试结果：

	CPU	GPU	内存	耗时	prompt token	response token
问题一	9	24	5.9	1m43s	8.35	3.71
问题二	9	25	6.0	1m25s	8.26	57.92
问题三	9	24	6.0	2m5s	8.17	187.57
问题四	9	24	6.0	1m51s	8.04	168.65
问题五	9	24	6.0	2m18s	8.09	58.79
问题六	9	24	6.1	1m44s	8.10	57.77
问题七	9	24	6.1	2m7s	8.09	59.97
问题八	9	24	6.1	1m36s	8.10	58.80
问题九	9	24	6.1	2m36s	8.08	60.12
问题十	9	24	6.1	1m45s	8.08	59.93

deepseek-r1:14b 模型测试结果：

	CPU	GPU	内存	耗时	prompt token	response token
问题一	9	25	10.3	3m35s	4.13	2.02
问题二	9	25	10.4	3m37s	4.10	25.18
问题三	9	25	10.4	5m52s	3.99	33.92
问题四	9	25	10.4	6m5s	3.96	26.73
问题五	9	25	10.5	6m11s	3.96	26.40
问题六	9	25	10.5	6m15s	3.95	25.52
问题七	9	25	10.5	6m41s	3.96	26.90
问题八	9	25	10.5	6m37s	3.95	26.24
问题九	9	25	10.5	6m2s	3.95	26.29
问题十	9	25	10.5	4m43s	3.96	26.36

纯CPU推理性能数据

使用 Ollama + Open WebUI 进行纯 CPU 推理测试，启动未加载模型时资源占用：CPU 1%、GPU 0%、内存 566MB。

deepseek-r1:7b 模型首次测试结果：

	CPU	内存	耗时	prompt token	response token
问题一	1+17	5G+583MB	6m23s	2.08	0.21
问题二	1+17	5.3G+587MB	15m38s	0.96	1.48
问题三	1+17	5.3G+589MB	21m45s	1.58	1.31
问题四	1+17	5.3G+591MB	11m28s	2.43	6.21
问题五	1+17	5.5G+594MB	47m2s	0.94	0.96
问题六	1+17	5.6G+595MB	12m53s	2.55	3.47
问题七	1+17	5.6G+595MB	21m19s	1.81	2.09
问题八	1+17	5.6G+595MB	7m12s	1.27	2.66
问题九	1+17	5.6G+595MB	17m43s	1.12	2.27
问题十	1+17	5.6G+595MB	9m26s	2.06	3.92

因数据波动较大，进行 deepseek-r1:7b 模型二次测试：

	CPU	内存	耗时	prompt token	response token
问题一	1+17	5.0G+547MB	3m9s	2.79	3.62
问题二	1+17	5.2G+552MB	18m46s	0.84	1.14
问题三	1+17	5.2G+554MB	12m21s	2.38	5.45
问题四	1+17	5.3G+555MB	20m38s	2.10	3.09
问题五	1+17	5.1G+555MB	17m24s	2.11	2.92
问题六	1+17	5.1G+556MB	9m36s	2.66	3.02
问题七	1+17	6.4G+567MB	9m0s	1.93	0.09
问题八	1+17	6.6G+568MB	13m41s	0.83	3.38
问题九	1+17	6.6G+568MB	5m26s	2.50	13.14
问题十	1+17	6.6G+568MB	4m53s	2.36	3.95

提示：纯 CPU 运行 14b 模型效率极低，用户体验较差，不建议常规使用。 deepseek-r1:14b 模型测试结果：

	CPU	内存	耗时	prompt token	response token
问题一	1+17	10.9G+556MB	7m56s	1.41	1.62
问题二	1+17	11.2G+559MB	46m36s	0.55	1.08
问题三	1+17	11.2G+559MB	38m55s	1.03	2.05
问题四	1+17	11.2G+559MB	32m19s	0.61	1.60
问题五	1+17	11.2G+559MB	20m0s	1.34	1.74
问题六	1+17	16.7G+563MB	26m49s	1.09	1.45
问题七	1+17	16.6G+564MB	33m36s	1.28	1.45
问题八	1+17	16.4G+564MB	31m32s	1.29	1.73
问题九	1+17	16.1G+565MB	23m49s	1.16	1.71
问题十	1+17	16.1G+565MB	16m17s	0.72	1.72

QwQ-32B模型附加测试

QwQ-32B 大语言模型由阿里通义千问 Qwen 团队开发，这款 320 亿参数模型在性能上媲美甚至超越 DeepSeek-R1 的 6710 亿参数版本。

测试表明，QwQ-32B 回复质量较高，体现了较强的智能水平，但作为 32b 模型，核显推理速度较慢，具体数据如下表所示。

qwq:32b 模型测试结果：

	CPU	GPU	内存	耗时	prompt token	response token
问题一	9	25	20.5	13m47s	1.78	1.97
问题二	9	25	20.6	38m59s	1.75	11.64
问题三	9	25	20.6	15m26s	1.83	11.92
问题四	9	25	20.8	19m39s	1.84	11.50
问题五	9	25	20.8	22m9s	1.84	11.34
问题六	9	25	20.8	22m49s	1.83	11.23
问题七	9	25	20.7	19m19s	1.83	11.77
问题八	9	25	20.7	16m14s	1.84	11.83
问题九	9	25	20.7	15m56s	1.84	11.73
问题十	9	25	20.6	16m13s	1.84	11.67

总结与建议

总体而言，绿联NAS的AI Plugins表现极为出色。初始观点可能低估了其价值，但实测证实IPEX-LLM技术实现了显著性能飞跃。

测试数据清晰显示，相比纯CPU推理，GPU加速大幅提升响应速度并确保运行稳定性。核显资源的充分利用有效分担CPU负载，达成“事半功倍”的高效协同。

然而，当前方案仅限局域网访问构成局限。建议绿联优化界面设计，开发原生适配Ollama的交互系统，以降低用户门槛，真正实现AI技术的生活化应用。

Menu

绿联NAS AI Plugins深度评测：本地大模型GPU加速性能实测揭秘，实测数据揭示速度与效率的惊人提升

安装步骤详解

使用指南与界面操作

性能测试：GPU加速 vs 纯CPU推理

GPU加速推理性能数据

纯CPU推理性能数据

QwQ-32B模型附加测试

总结与建议

京东云AX1800 Pro亚瑟openWRTiStoreOS刷机教程

李飞飞是李井泉的孙女？揭开家庭背景爷爷和父亲是谁？- AI教母的身份认同祖国及中国人华人

如何高效搭建个人游戏库Playnite：详细步骤和实用技巧全解析

解决chatgpt移动端(iOS|Android|苹果|安卓)无法使用的问题

VidHub全能媒体播放器深度评测：打造跨平台私人影视库，支持网盘挂载与影视服务器连接

如何高效实现NAS与电脑的直接连接，提升数据传输速度的详细教程

coturn一键部署：从参数配置到docker compose部署，搭建高可用WebRTC服务，理解各个端口的含义，实现加密

谷歌浏览器chrome的side panel侧边栏消失了怎么办？阅读清单及书签

如何使用warp解决openai封堵vps ip访问chatgpt的问题

2024年小雅Emby全家桶使用指南：如何搭建与小雅AList的区别和优势解析