ZigBee 3.0 颜色控制集群:从命令交互到RGB转换的实战解析
2026/6/17 22:50:49
环境准备
Nvidia显卡驱动、CUDA、nvidia-container安装
参考:http:
Docker环境安装
参考:http:
注意:在进行VLLM容器化部署之前,需要确保已在服务器上安装了Docker 和
Nvidia显卡驱动、CUDA、nvidia-container。
部署流程主要分为三个关键步骤:
下面详细介绍每个步骤的具体操作。
1. 离线获取 vLLM 镜像
由于内网服务器无法直接访问Docker Hub,需要在有网络的机器上先拉取镜像,然后传输到内网服务器。
在可联网的机器上执行:
# 拉取官方vLLM镜像(大小约20GB,下载需要较长时间)docker pull vllm/vllm-openai# 将镜像打包保存为文件docker save -o vllm-openai-image.tar vllm/vllm-openai:latest在内网服务器上执行:
# 进入保存镜像文件的目录cd/data# 从文件加载镜像到本地Dockerdocker load<vllm-openai-image.tar# 验证镜像是否加载成功(应该能看到vllm/vllm-openai镜像)docker images|grepvllm-openai2. 下载 Qwen3-32B 模型文件
模型可以从以下几个平台下载(推荐使用国内源提升下载速度):
本文以魔搭社区为例,使用git下载:
# 确保已安装git-lfs(大文件支持)gitlfsinstall# 克隆模型仓库(模型大小约62GB,下载需要很长时间)gitclone https://www.modelscope.cn/Qwen/Qwen3-32B.git下载完成后,将整个模型文件夹复制到内网服务器的/data/Qwen3-32B目录下。
3. 启动 vLLM 推理服务
使用以下命令启动服务容器,请根据实际情况调整参数:
docker run -d --privileged --gpus all\--restart unless-stopped\--networkhost\-v /data/Qwen3-32B:/app/model\--shm-size 32G\--name vllm-qwen3\vllm/vllm-openai:latest\--model /app/model\--served-model-name qwen3:32b