谷歌端侧AI双项目炸场:gallery与LiteRT-LM单日暴涨超1300星,零成本本地部署大模型指南
无需云端,你的手机现在就具备运行大模型的能力!
在一天之内,谷歌抛出了两个重量级开源项目:gallery(GitHub星标19.2K,单日增长853星)与 LiteRT-LM(2.8K星标,单日增长500星)。乍一看是两个独立项目,但细看便会发现它们其实是谷歌端侧AI战略的“一体两面”:
gallery 是“展示厅”——告诉你端侧AI能做什么
LiteRT-LM 是“发动机”——让你真的能把大模型跑在手机上
这背后释放了一个重要信号:2026年,端侧AI将从“勉强能跑”蜕变为“真正好用”。

本文将深入解析这两个项目,并探讨为何端侧AI正成为普通开发者最容易切入的变现良机。
端侧AI为何突然爆火?核心矛盾与解决方案
端侧AI的突然走红,根源在于云端AI高昂的成本和用户难以忍受的延迟。
简单算一笔账:
用云端 API 跑一次大模型推理,成本大概 0.001-0.01 美元
如果你的 App 日活 10 万,每天每人调用 10 次,一个月光 API 费用就要 3-30 万美元
这还不算网络延迟、隐私合规、服务器运维的成本

端侧AI的核心理念是:将模型直接嵌入用户设备,一次部署,无限次免费调用。
谷歌这两个项目,正是在解决端侧AI的两大核心难题:
| 用户的困惑 | gallery 的解法 | LiteRT-LM 的解法 |
|---|---|---|
| 不清楚端侧AI的应用场景 | 提供现成的案例库,可直接参考复用 | - |
| 缺乏在移动设备运行模型的引擎 | - | 提供高性能端侧推理引擎,一键部署 |
换句话说,谷歌在鼓励开发者:“别只观望,这里有现成的答案!”
gallery:端侧AI的应用案例宝库
Gallery实际上是一个精心整理的示范项目集合,全面展示了谷歌在端侧机器学习与生成式AI领域的各类应用。
翻看其代码结构,会发现几个颇具启发的亮点。Gallery把案例划分成几大类别:
图像生成:本地运行Stable Diffusion等模型
文本生成:本地运行大语言模型,搭建聊天机器人
语音处理:离线语音识别与文本转语音
多模态:图文理解与视觉问答
每个案例都配备完整的代码、模型权重和部署说明。

关键在于“真正可运行”
许多开源项目的示例仅停留在“理论可行”,而gallery的案例是确确实实可以跑起来的。
试运行一个文本生成案例:
# 克隆项目
git clone https://github.com/google-ai-edge/gallery.git
# 安装依赖
cd gallery
pip install -r requirements.txt
# 运行案例
python examples/text_generation/run.py
仅需3分钟,在MacBook上便成功部署了一个拥有30亿参数的本地大语言模型。 推理速度约为20-30 tokens/秒,对这一规模的本地模型而言已相当可观。

哪些人会从中受益?
产品经理——从中获取灵感,探索端侧AI可赋能的产品功能
开发者——直接复用现成代码,加速开发进程
创业者——评估技术可行性,发掘高价值应用场景
LiteRT-LM:手机端大模型的高效推理引擎
如果将gallery比作展示厅,那么LiteRT-LM便是驱动这一切的核心引擎。这是一个用C++编写的端侧大语言模型推理引擎,其核心使命清晰明确:让大模型在手机上运行得更快、更省电。
技术亮点
以下几个关键特性尤为突出:
- 量化支持:支持INT8和INT4量化,可将模型体积压缩至原来的1/4到1/8。
- 内存优化:针对移动设备严格的内存限制进行了深度优化。
- 异构计算:自动调度CPU、GPU与NPU,根据任务选择最佳算力。
- 流式输出:支持逐令牌(token-by-token)生成,提升交互体验。

性能实测数据
谷歌官方在Pixel 8 Pro上给出了一组对比数据:
| 模型 | 量化 | 推理速度 | 内存占用 |
|---|---|---|---|
| Gemma-2B | FP16 | 45 tokens/s | 4.2GB |
| Gemma-2B | INT8 | 78 tokens/s | 2.1GB |
| Gemma-2B | INT4 | 102 tokens/s | 1.3GB |
采用INT4量化后,推理速度翻倍,内存占用仅为原来的三分之一。 这带来的直接影响是:即便是中端手机也能流畅运行大模型。
极简部署流程
LiteRT-LM的部署过程极其简洁:
# 1. 安装 LiteRT-LM
pip install litert-lm
# 2. 下载模型(自动量化)
litert download gemma-2b-int4
# 3. 运行
litert run gemma-2b-int4 --prompt "你好,请介绍一下自己"
全程不超过5分钟,无需配置CUDA,更无需编译源码。
普通开发者的变现机遇:端侧AI的三大掘金方向
一、垂直场景的端侧AI应用
通用大模型在云端的竞争已趋白热化,但垂直场景下,端侧方案拥有独特优势。
- 本地日记助手:日记数据完全存储在手机本地,严防隐私泄露。
- 离线翻译器:出国旅行无需购买流量卡,随时即用。
- 本地客服机器人:企业内部数据不外传,安全可控。
用户会为隐私保护、离线能力和低延迟体验买单。
二、端侧AI开发工具链
当前端侧AI的开发门槛依然较高,配套工具链尚未成熟。
- 模型量化工具:一键将大模型压缩至手机适用尺寸。
- 性能剖析器:协助开发者精准调优端侧推理速度。
- 部署模板:提供针对不同手机型号的配置优化方案。
开发者愿意为效率付费。
三、端侧AI培训与咨询服务
许多传统开发者希望转型端侧AI,却苦于无从下手。
- 实战课程:手把手教授从零部署完整的端侧AI应用。
- 企业内训:助力企业构建端侧AI技术栈。
- 技术咨询:评估项目在端侧落地的可行性与方案。
信息落差叠加技能差距,便催生出可观的溢价空间。

额外的实用特性
除了硬核功能,这两个项目还藏着不少贴心设计:
- 示例代码完整度高:绝非入门级“Hello World”,而是真正可投入开发的可运行演示。
- 文档体验友好:包含中文注释,提供详尽的常见问题解答。
- 社区响应积极:Issues处理迅速,官方维护团队十分活跃。
- 跨平台全覆盖:同时支持Android、iOS及Web(通过WebAssembly)。
零门槛快速上手
无论你使用何种平台,均可轻松起步:
兼容性:
✅ Android - 完整支持
✅ iOS - 完整支持
✅ Web - 通过 WebAssembly 运行
✅ macOS/Windows - 开发调试用
安装 gallery:
git clone https://github.com/google-ai-edge/gallery.git
cd gallery
pip install -r requirements.txt
安装 LiteRT-LM:
pip install litert-lm
litert download gemma-2b-int4
无需注册,无需API密钥,完全免费。
写在最后:端侧AI爆发前夜,谁将抢占先机?
展望2026年,端侧AI有望复刻2023年云端大模型的爆发轨迹。但与云端不同,端侧AI更加贴近用户、更注重体验、也更易于创造收入。谷歌此次双管齐下,已将“应用案例库”与“高能引擎”双手奉上。接下来,就看谁最先孵化出首个破圈的杀手级应用——也许那个人就是你?

