v100 其实是支持int8张量的,但方法跟图灵不一样,下面是说明文件
https://github.com/ai-bond/flash-attention-v100/blob/main/docs/volta.md
flashattention的优化方案:
1构建安装,确保pip、setuptools和wheel为最新版本
pip install --upgrade pip setuptools wheel
它的安装教程在这里 https://github.com/FearL0rd/ComfyUI-ComfyUI-Flash-Attention_v100?tab=readme-ov-file
还发现了个支持p100的flashattention,p100貌似速度会变慢5-10%,但内存会少很多
https://github.com/sirCamp/flash-attention-legacy https://github.com/GuoHaojiee/FlashAttention_CUDA
下面这个貌似是v100的flashattention大语言模型用的
https://github.com/ajunlonglive/flashinfer-v100
目前有人用sageattention 运行成功,但貌似速度很一般。有人提出,还不如flashattention的方案。希望在未来能得到优化把,暂时不研究v100的 sageattention方案。只能用sageattn_qk_int8_pv_fp16_triton 这个模式运行,说明资料如下
https://github.com/thu-ml/SageAttention/issues/283
https://github.com/Ph0rk0z/SageAttention2/issues/11
triton-lang/triton-windows: Triton with Windows support
zimage加速方案
https://www.bilibili.com/video/BV1kTmxB8EpW