v100 其实是支持int8张量的,但方法跟图灵不一样,下面是说明文件

https://github.com/ai-bond/flash-attention-v100/blob/main/docs/volta.md

flashattention的优化方案:

1构建安装,确保pipsetuptoolswheel为最新版本

pip install --upgrade pip setuptools wheel
 它的安装教程在这里
https://github.com/FearL0rd/ComfyUI-ComfyUI-Flash-Attention_v100?tab=readme-ov-file

还发现了个支持p100的flashattention,p100貌似速度会变慢5-10%,但内存会少很多

https://github.com/sirCamp/flash-attention-legacy 
https://github.com/GuoHaojiee/FlashAttention_CUDA

下面这个貌似是v100的flashattention大语言模型用的

https://github.com/ajunlonglive/flashinfer-v100


目前有人用sageattention 运行成功,但貌似速度很一般。有人提出,还不如flashattention的方案。希望在未来能得到优化把,暂时不研究v100的 sageattention方案。只能用sageattn_qk_int8_pv_fp16_triton 这个模式运行,说明资料如下

https://github.com/thu-ml/SageAttention/issues/283

 https://github.com/Ph0rk0z/SageAttention2/issues/11


triton-lang/triton-windows: Triton with Windows support

zimage加速方案

https://www.bilibili.com/video/BV1kTmxB8EpW

标签: none

添加新评论