Mac 本地跑 AI 大模型神器 OMLX，推理速度提升 10 倍！

在过去的 1 个月里，越来越多的人开始在 Mac 上运行本地 AI 大模型。比如使用 Ollama 来运行各种模型，再通过 OpenCat 或 Ollama 桌面客户端来调用。但很多人都有一个非常痛苦的体验：速度慢、推理卡顿、token 每秒只有个位数。

尤其是在 Mac Mini 或 16GB 内存设备上，这个问题更明显。今天给大家介绍一个 Mac 本地跑模型的加速神器 —— OMLX。

它可以让本地模型推理速度提升 10 倍以上，即使是丐版 Mac Mini 也能轻松运行大模型。

一、为什么需要 OMLX？¶

很多人在 Mac 上运行本地模型时，一般是这样的架构：

用户界面 (OpenCat/桌面客户端) → Ollama → 本地模型

但默认情况下：

推理效率不高
KV Cache 利用率低
CPU/GPU 调度不充分

所以经常会出现这种情况：

回复一个字一个字往外蹦
每秒 3~5 token
一个简单问题几十秒甚至几分钟

这对于日常使用来说体验非常差。

二、OMLX 是什么？¶

OMLX 是一个 Mac 本地 AI 模型加速服务器，主要功能包括：

✅ 优化本地模型推理
✅ 提升 token 生成速度
✅ 管理模型缓存
✅ 提供 OpenAI API 接口
✅ 支持压力测试

简单理解：OMLX = Mac 本地 AI 模型加速服务器

部署后，本地模型速度通常可以提升 5~10 倍以上。

三、Mac Mini 推荐模型配置¶

如果你的设备是 16GB Mac Mini，推荐使用以下配置：

模型	大小	推荐设备
Qwen3.5 4B	~3GB	8GB Mac
Qwen3.5 9B	~6.6GB	16GB Mac
Qwen3.5 27B	~17GB	32GB+

9B 模型在性能和质量之间非常平衡，是 16GB Mac Mini 的最佳选择。

四、安装 Ollama¶

首先安装 Ollama：

打开官网下载安装：https://ollama.com
安装完成后打开终端
下载 Qwen3.5 9B 模型：

ollama pull qwen3.5:9b

下载大小：约 6.6GB

下载完成后，可以测试模型：

ollama run qwen3.5:9b "2,6,12,20,30,(?) 这个数列的规律是什么？"

但在 Ollama 默认推理下，速度可能会很慢：

项目	时间
开始生成	20 秒
完整回答	1 分 50 秒

五、安装 OMLX¶

5.1 前置要求¶

在安装之前请确保你当前的 Mac 上已经安装了 OpenClaw。如果没有安装，可以通过下面的一键安装命令：

curl -fsSL https://openclaw.ai/install.sh | bash

目前 OpenClaw 在 GitHub 已经有 4000+ Star。

5.2 下载 OMLX¶

打开项目 Release 页面下载最新版本：

GitHub: https://github.com/jundot/omlx
网盘打包下载：https://pan.quark.cn/s/b9503bb71e13

注意选择正确版本：

文件版本	适合设备
square 版本	老 Mac
tar 版本	M5 / 最新 macOS

下载后直接拖入 Applications 安装。

六、启动 OMLX 服务器¶

打开 OMLX 后，配置如下：

默认端口：8000
API Key：随便设置，例如：12345678

点击启动，当看到绿色状态就说明启动成功。

进入后台管理界面进行进一步配置。

七、配置模型缓存（非常关键）¶

在设置里建议这样配置：

内存限制¶

如果是 16GB Mac，建议设置：

热缓存：4GB
冷缓存：8GB

冷缓存（强烈建议）¶

作用：

保存 KV cache
模型下次启动更快
大幅提升上下文推理效率

八、下载模型¶

注意：OMLX 不识别 Ollama 模型格式，所以需要重新下载模型。

在 OMLX 后台：

搜索模型：qwen3.5:9b
直接下载即可
下载完成后会自动加载

九、对接 OpenCat¶

接下来把 OMLX 接入 OpenCat：

终端运行 OpenCat
配置 Provider 为 Custom Provider
API 地址：http://localhost:8000/v1
API Key：留空即可（或填写你设置的 key）
模型 ID：复制 OMLX 后台中的模型 ID

配置完成后即可使用。

十、速度实测对比¶

同样的问题：2,6,12,20,30,(?) 这个数列的规律是什么？

方案	用时
Ollama 原生	1 分 50 秒
OMLX 加速	10~15 秒

速度提升接近 10 倍！ 几乎可以做到秒级响应。

十一、OMLX 的高级功能¶

1. 性能矩阵测试¶

可以测试：

单线程性能
多线程性能
并发压力

用于评估模型在不同负载下的表现。

2. OpenAI API 兼容¶

支持：

OpenAI API 格式
Cloud 模型接入
自定义模型配置

可以直接当作本地 OpenAI 服务器使用。

3. KV Cache 持久化¶

大幅提升：

模型启动速度
上下文推理效率
多轮对话体验

十二、总结推荐¶

如果你想在 Mac 上本地跑 AI 大模型，那么这套组合非常推荐：

OMLX + Ollama + OpenCat

优势：

✅ 本地运行，隐私安全
✅ 不消耗 token，免费使用
✅ 推理速度大幅提升（5-10 倍）
✅ Mac Mini 也能轻松运行
✅ 支持多模型自由切换

尤其是对于喜欢折腾本地 AI + 自动化工具的朋友来说，这套方案真的非常香。

相关资源：

OMLX GitHub: https://github.com/jundot/omlx
OpenClaw: https://openclaw.ai
Qwen3.5 模型：https://ollama.com/library/qwen3.5

希望这篇博客文章对您有所帮助！