转:NVIDIA 的朋友和我说他们内部一律都是 ubuntu,cuda 生产环境不建议用 debian、ubuntu 之外的任何系统,只会徒增烦恼。


操作系统建议Ubuntu22,长期维护版本。


这个是浪潮NF5568M4,超微7048同款

安装显卡驱动


这里点击附加驱动

选择上面这个驱动后,点击应用更改

驱动安装成功后,可以看到这

watch nvidia-smi

安装CUDA:


https://developer.nvidia.com/cuda-downloads


只需要执行Base Install命令

如果已经通过图形安装了驱动,千万不要再在此处安装驱动。会出现版本冲突的情况导致驱动无效。


wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb

sudo dpkg -i cuda-keyring_1.1-1_all.deb

sudo apt-get update

sudo apt-get -y install cuda-toolkit-12-4

安装Conda


https://conda.io/projects/conda/en/latest/user-guide/install/linux.html


可以按照官网提示安装

以上安装遇到问题,可以下面网站提问:


https://devv.ai/


如果安装遇到问题,可以来这里

安装vllm:


https://docs.vllm.ai/en/latest/getting_started/installation.html


vllm官网

conda create -n vllm python=3.10 -y

conda activate vllm

pip install vllm

如果速度太慢,可以加入镜像源:


# 创建名为vllm的Python 3.10环境,并自动确认(-y)

conda create -n vllm python=3.10 -y


# 激活名为vllm的环境

conda activate vllm


# 在激活的环境中,通过清华大学的镜像源安装vllm包

pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

第二次运行,不需要重新安装,只需要重新激活环境后,直接执行下面的启动命令即可。


vllm启动参考命令:


python3 -m vllm.entrypoints.openai.api_server \  # 启动OpenAI的API服务器

  --model=/models/Qwen1.5-72B-Chat-GPTQ-Int4 \  # 指定模型路径

  --served-model=gpt-4 \  # 指定要提供的模型名字,即是API请求的模型名称

  --dtype=float16 \  # 指定数据类型为float16

  --tensor-parallel-size=4 \  # 指定张量并行大小为4

  --quantization=gptq \  # 使用GPTQ量化

  --trust-remote-code \  # 信任远程代码

  --gpu-memory-utilization=0.98 \  # 指定GPU内存利用率为0.98,如果出现不稳定情况,请降低该数值

  --host=0.0.0.0 --port=8001 \  # 指定主机和端口

  --max-model-len=15000 \   # 指定最大模型长度为15000

  --max-num-seqs 2  # 指定最大序列数为2,可以降低上面模型长度到8192,提升该数值以提升并发增加数据吞吐量

python3 -m vllm.entrypoints.openai.api_server \  # 启动vLLM的OpenAI兼容API服务器

    --model=/models/Qwen1.5-72B-Chat-GPTQ-Int4 \  # 指定要加载的模型路径

    --served-model=gpt-4 \  # 指定要提供服务的模型名称

    --dtype=float16 \  # 指定张量数据类型为float16

    --tensor-parallel-size=4 \  # 指定张量并行大小为4

    --quantization=gptq \  # 启用GPTQ量化

    --trust-remote-code \  # 信任远程代码

    --gpu-memory-utilization=0.8 \  # 指定GPU内存利用率为0.8

    --chat-template=/home/wen/models/chatml.jinja \  # 指定聊天模板的路径,现在可以不设置

    --host=0.0.0.0 \  # 指定服务器主机地址为0.0.0.0

    --port=8001 \  # 指定服务器端口号为8001

    --max-model-len=8192  # 指定模型的最大长度为8192

正常情况下,不建议开启--enforce-eager,因为会关闭cuda graph:


这个关系着推理的延迟,开启会显著降低延迟

服务启动后,兼容OpenAI API的软件即可调用该服务的API进行大规模语言模型推理。



vllm的大吞吐量,是特别适合沉浸式翻译的高并发,体验上会非常舒畅:


01:37

无障碍阅读英文网站:本地AI大模型通义千问72B+沉浸式翻译

 2353  28

视频

门的耳朵

03:03

本地革新!两块2080ti魔改显卡驱动32B通义千问,VLLM框架解锁翻译新速度

 1918  26

视频

门的耳朵




最重要的最后说,这是电脑启动后第一个需要做的事情:

重要操作提示

为了确保计算机的稳定性,请在每次开机后执行以下命令,以稳定显卡的功耗。忽视这一步骤可能会导致由于功耗波动过大而引起计算机重启。


# 设置显卡以持久模式运行

sudo nvidia-smi -pm 1


# 将显卡的核心频率固定在1400 MHz

sudo nvidia-smi -lgc 1400


# 将显卡的性能级别设置为200

sudo nvidia-smi -pl 200


# 注意:显卡的性能级别和核心频率的设置可能会对硬件造成损伤,

# 因此在使用前请确保你了解这些设置的影响,并且已经做好了相应的备份和恢复计划。

# 在进行任何硬件设置之前,最好先查阅相关文档或咨询专业人员。

执行上述命令后,显卡的功耗将保持在当前状态,从而避免不必要的波动。这有助于提高系统的稳定性,特别是在运行资源密集的推理任务时。 作者:门的耳朵 https://www.bilibili.com/read/cv33373992/ 出处:bilibili

来源 https://www.bilibili.com/read/cv33371756/?from=readlist

标签: none

添加新评论