Grogu (@yqyan) 在 使用 Ollama 部署 Qwen3-235B 模型 中发帖
使用 Ollama 部署 Qwen3-235B 模型
1. 概述
受限于硬件资源,考虑通过 Ollama 部署 Qwen3-235B-A22B 大模型的 2-bit 量化版本。由于 Ollama 官方只提供了 4-bit 量化版本的模型,没有直接提供 2-bit 量化版的模型,将采用手动下载、合并 GGUF 文件并自定义 Modelfile 的方式完成部署。
2. 先决条件
确保环境满足以下条件:
Ollama 已安装: 系统已经安装并运行 Ollama 服务。
llama.cpp 工具: 需要 llama.cpp 项目编译出的工具集,特别是 llama-gguf-split 工具。确保该工具已编译并在系统中可用。
存储空间: 需要足够的磁盘空间来存储下载的 GGUF 文件(合集 85.7 GB)以及合并后的单个 GGUF 文件(85.7 GB)。
3. 部署步骤
部署步骤如下: ...