OpenClaw + Ollama 本地部署模型很慢? 一个配置让 Ollama 速度翻倍,Ollama 加速配置!

全栈技术 Mar 17, 2026

今天要配置的参数是:num_gpu

num_gpu 指的是发送到 GPU 进行计算的模型层数(Layers)

  • 背景知识:大语言模型(LLM)由多层神经网络(Transformer blocks)堆叠而成。GPU 处理这些层的速度远快于 CPU。
  • 计算分配:如果你将该值设置为 32,而模型总共有 32 层,那么模型将完全在 GPU 上运行;如果模型有 60 层,你设置了 30 层,剩下的 30 层将由 CPU 处理。这种状态被称为“混合推理(Hybrid Inference)”。

所以加速 Ollama 的思路就是调大 num_gpu,让模型的所有层都运行在GPU上!

B站视频地址:

https://www.bilibili.com/video/BV1pVwXzGE1P/

Youtube视频地址:

https://youtu.be/jaAtWeUMZ-Y



# 临时session设置
/set parameter num_gpu 256


# 命令行 运行模型
ollama run qwen3.5:9b

# 查看模型信息
ollama show qwen3.5:9b --modelfile

# 进入 .ollama 目录,然后导出模型配置
ollama show qwen3.5:9b --modelfile > qwen359b.modelfile


# 编辑文件 qwen359b.modelfile ,新增参数,保持其他参数不动
PARAMETER num_gpu 256

# 使用文件 qwen359b.modelfile 创建新模型
ollama create qwen359b -f qwen359b.modelfile


# 查看最新模型
ollama list

NAME               ID              SIZE      MODIFIED
qwen359b:latest    4207038f5f7f    6.6 GB    1 minutes ago
qwen3.5:9b         6488c96fa5fa    6.6 GB    4 days ago