AI大模型本地化部署Q/A本地大模型部署篇

转：NVIDIA 的朋友和我说他们内部一律都是 ubuntu，cuda 生产环境不建议用 debian、ubuntu 之外的任何系统，只会徒增烦恼。

操作系统建议Ubuntu22，长期维护版本。

这个是浪潮NF5568M4，超微7048同款

安装显卡驱动

这里点击附加驱动

选择上面这个驱动后，点击应用更改

驱动安装成功后，可以看到这

watch nvidia-smi

安装CUDA：

https://developer.nvidia.com/cuda-downloads

只需要执行Base Install命令

如果已经通过图形安装了驱动，千万不要再在此处安装驱动。会出现版本冲突的情况导致驱动无效。

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb

sudo dpkg -i cuda-keyring_1.1-1_all.deb

sudo apt-get update

sudo apt-get -y install cuda-toolkit-12-4

安装Conda

https://conda.io/projects/conda/en/latest/user-guide/install/linux.html

可以按照官网提示安装

以上安装遇到问题，可以下面网站提问：

https://devv.ai/

如果安装遇到问题，可以来这里

安装vllm：

https://docs.vllm.ai/en/latest/getting_started/installation.html

vllm官网

conda create -n vllm python=3.10 -y

conda activate vllm

pip install vllm

如果速度太慢，可以加入镜像源：

# 创建名为vllm的Python 3.10环境，并自动确认（-y）

conda create -n vllm python=3.10 -y

# 激活名为vllm的环境

conda activate vllm

# 在激活的环境中，通过清华大学的镜像源安装vllm包

pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

第二次运行，不需要重新安装，只需要重新激活环境后，直接执行下面的启动命令即可。

vllm启动参考命令：

python3 -m vllm.entrypoints.openai.api_server \ # 启动OpenAI的API服务器

--model=/models/Qwen1.5-72B-Chat-GPTQ-Int4 \ # 指定模型路径

--served-model=gpt-4 \ # 指定要提供的模型名字，即是API请求的模型名称

--dtype=float16 \ # 指定数据类型为float16

--tensor-parallel-size=4 \ # 指定张量并行大小为4

--quantization=gptq \ # 使用GPTQ量化

--trust-remote-code \ # 信任远程代码

--gpu-memory-utilization=0.98 \ # 指定GPU内存利用率为0.98，如果出现不稳定情况，请降低该数值

--host=0.0.0.0 --port=8001 \ # 指定主机和端口

--max-model-len=15000 \ # 指定最大模型长度为15000

--max-num-seqs 2 # 指定最大序列数为2，可以降低上面模型长度到8192，提升该数值以提升并发增加数据吞吐量

python3 -m vllm.entrypoints.openai.api_server \ # 启动vLLM的OpenAI兼容API服务器

--model=/models/Qwen1.5-72B-Chat-GPTQ-Int4 \ # 指定要加载的模型路径

--served-model=gpt-4 \ # 指定要提供服务的模型名称

--dtype=float16 \ # 指定张量数据类型为float16

--tensor-parallel-size=4 \ # 指定张量并行大小为4

--quantization=gptq \ # 启用GPTQ量化

--trust-remote-code \ # 信任远程代码

--gpu-memory-utilization=0.8 \ # 指定GPU内存利用率为0.8

--chat-template=/home/wen/models/chatml.jinja \ # 指定聊天模板的路径，现在可以不设置

--host=0.0.0.0 \ # 指定服务器主机地址为0.0.0.0

--port=8001 \ # 指定服务器端口号为8001

--max-model-len=8192 # 指定模型的最大长度为8192

正常情况下，不建议开启--enforce-eager，因为会关闭cuda graph：

这个关系着推理的延迟，开启会显著降低延迟

服务启动后，兼容OpenAI API的软件即可调用该服务的API进行大规模语言模型推理。

vllm的大吞吐量，是特别适合沉浸式翻译的高并发，体验上会非常舒畅：

01:37

无障碍阅读英文网站：本地AI大模型通义千问72B+沉浸式翻译

2353 28

视频

门的耳朵

03:03

本地革新！两块2080ti魔改显卡驱动32B通义千问，VLLM框架解锁翻译新速度

1918 26

视频

门的耳朵

最重要的最后说，这是电脑启动后第一个需要做的事情：

重要操作提示

为了确保计算机的稳定性，请在每次开机后执行以下命令，以稳定显卡的功耗。忽视这一步骤可能会导致由于功耗波动过大而引起计算机重启。

# 设置显卡以持久模式运行

sudo nvidia-smi -pm 1

# 将显卡的核心频率固定在1400 MHz

sudo nvidia-smi -lgc 1400

# 将显卡的性能级别设置为200

sudo nvidia-smi -pl 200

# 注意：显卡的性能级别和核心频率的设置可能会对硬件造成损伤，

# 因此在使用前请确保你了解这些设置的影响，并且已经做好了相应的备份和恢复计划。

# 在进行任何硬件设置之前，最好先查阅相关文档或咨询专业人员。

执行上述命令后，显卡的功耗将保持在当前状态，从而避免不必要的波动。这有助于提高系统的稳定性，特别是在运行资源密集的推理任务时。作者：门的耳朵 https://www.bilibili.com/read/cv33373992/ 出处：bilibili

来源 https://www.bilibili.com/read/cv33371756/?from=readlist

最近回复
admin: yum install -y wget && wget -O i...
Chrome233: 多用户wg方案页面貌似不能访问了，可以补档吗？谢谢

AI大模型本地化部署Q/A本地大模型部署篇

添加新评论