今天要配置的参数是:num_gpu
num_gpu 指的是发送到 GPU 进行计算的模型层数(Layers)。
- 背景知识:大语言模型(LLM)由多层神经网络(Transformer blocks)堆叠而成。GPU 处理这些层的速度远快于 CPU。
- 计算分配:如果你将该值设置为 32,而模型总共有 32 层,那么模型将完全在 GPU 上运行;如果模型有 60 层,你设置了 30 层,剩下的 30 层将由 CPU 处理。这种状态被称为“混合推理(Hybrid Inference)”。
所以加速 Ollama 的思路就是调大 num_gpu,让模型的所有层都运行在GPU上!
B站视频地址:
https://www.bilibili.com/video/BV1pVwXzGE1P/
Youtube视频地址:
# 临时session设置
/set parameter num_gpu 256
# 命令行 运行模型
ollama run qwen3.5:9b
# 查看模型信息
ollama show qwen3.5:9b --modelfile
# 进入 .ollama 目录,然后导出模型配置
ollama show qwen3.5:9b --modelfile > qwen359b.modelfile
# 编辑文件 qwen359b.modelfile ,新增参数,保持其他参数不动
PARAMETER num_gpu 256
# 使用文件 qwen359b.modelfile 创建新模型
ollama create qwen359b -f qwen359b.modelfile
# 查看最新模型
ollama list
NAME ID SIZE MODIFIED
qwen359b:latest 4207038f5f7f 6.6 GB 1 minutes ago
qwen3.5:9b 6488c96fa5fa 6.6 GB 4 days ago