OpenClaw + Ollama 本地部署模型很慢？一个配置让 Ollama 速度翻倍，Ollama 加速配置！

目录大纲

今天要配置的参数是：num_gpu

num_gpu 指的是发送到 GPU 进行计算的模型层数（Layers）。

背景知识：大语言模型（LLM）由多层神经网络（Transformer blocks）堆叠而成。GPU 处理这些层的速度远快于 CPU。
计算分配：如果你将该值设置为 32，而模型总共有 32 层，那么模型将完全在 GPU 上运行；如果模型有 60 层，你设置了 30 层，剩下的 30 层将由 CPU 处理。这种状态被称为“混合推理（Hybrid Inference）”。

所以加速 Ollama 的思路就是调大 num_gpu，让模型的所有层都运行在GPU上！

B站视频地址：

https://www.bilibili.com/video/BV1pVwXzGE1P/

Youtube视频地址：

https://youtu.be/jaAtWeUMZ-Y



# 临时session设置
/set parameter num_gpu 256


# 命令行 运行模型
ollama run qwen3.5:9b

# 查看模型信息
ollama show qwen3.5:9b --modelfile

# 进入 .ollama 目录，然后导出模型配置
ollama show qwen3.5:9b --modelfile > qwen359b.modelfile


# 编辑文件 qwen359b.modelfile ，新增参数，保持其他参数不动
PARAMETER num_gpu 256

# 使用文件 qwen359b.modelfile 创建新模型
ollama create qwen359b -f qwen359b.modelfile


# 查看最新模型
ollama list

NAME               ID              SIZE      MODIFIED
qwen359b:latest    4207038f5f7f    6.6 GB    1 minutes ago
qwen3.5:9b         6488c96fa5fa    6.6 GB    4 days ago